Détail scolarité Télécom Paris
Statistique - 30 heures
L’objectif principal de ce cours est d’introduire les élèves à la pratique des statistiques en déclinant les concepts fondamentaux: estimation ponctuelle, estimation par intervalle, vraisemblance, prédiction, tests d’hypothèses. La plupart de ces concepts seront introduits dans le cadre du modèle linéaire gaussien. Ils seront ensuite revisités au travers d’autres modèles et procédures fondamentales. Les cours seront illustrés par des exemples pratiques issus de l’analyse statistique de données ou du traitement automatique du signal.
Machine Learning - 112 heures
Beaucoup d’applications modernes (données web, génomique, finance, e-marketing, etc.) requièrent de manipuler et traiter des données de très grande dimension. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données s’appelle l’apprentissage statistique (statistical machine learning). Il s’agit, in fine, de produire des outils de prédiction et d’aide à la décision dédiés à une application spécifique. L’apparition d’algorithmes très performants pour la classification de données en grande dimension, tels que le boosting ou les Support Vector Machines dans le milieu des années 90, a progressivement transformé le champ occupé jusqu’alors par la statistique traditionnelle qui s’appuyait en grande partie sur le prétraitement réalisé par l’opérateur humain. En s’appuyant sur la théorie popularisée par Vapnik (The Nature of Statistical Learning, 1995), un nouveau courant de recherche est né: il se situe à l’interface entre les communautés mathématique et informatique et mobilise un nombre croissant de jeunes chercheurs tournés vers les applications liées à l’analyse de données massives. Dans ce module, on présentera le domaine, ses fondements, les problèmes qu’il permet d’aborder (problèmes supervisés et non supervisés), et les méthodes les plus récentes qui sont actuellement étudiées (SVM, Boosting, Lasso, etc.). L’intérêt de ces concepts et techniques sera illustré au travers d’applications concrètes et variées (données textuelles, images, signaux audio, données génomiques, problèmes industriels, etc.)
Machine Learning Avancé - 66 heures
Cette UE vise à explorer les techniques récentes permettant d’étendre les méthodes de type « machine-learning » dans le cadre où les données et la puissance de calcul ne sont pas centralisées, mais distribuées selon un réseau, dont les éléments communiquent en suivant un certain nombre de contraintes (e.g. échanges limités entre les machines formant le réseau, temps de calcul pour l’apprentissage et/ou la prédiction). Dans ce contexte (e.g. MapReduce), les données sont généralement acquises de façon séquentielle et hétérogène, ce qui constitue un autre aspect auquel les algorithmes utilisés en pratique doivent être adaptés. Les thèmes suivants seront traités : optimisation et Apprentissage Statistique Distribué, ranking, systèmes de recommandation et moteurs de recherche, analyse des réseaux sociaux, graph-mining, apprentissage on-line, par renforcement.
Systèmes Répartis - 33 heures
Ce module forme de futurs architectes, développeurs et utilisateurs avertis de systèmes répartis. Dans cet objectif, on présente les intergiciels (middleware), les briques technologiques et l’algorithmique pour la construction de systèmes répartis. Les grandes tendances en matière de cloud, pair-à-pair, informatique mobile sont étudiées. Des conférences seront organisées avec les acteurs industriels et académiques du domaine du cloud, des systèmes distribués large-échelle. Les systèmes répartis découlent de la mise en réseaux des ordinateurs et de l’ensemble des dispositifs électroniques qui font notre environnement aujourd’hui (téléphone portable, tablettes, capteurs …). Ils sont omniprésents dans les systèmes d’information, les systèmes de télécommunication, les infrastructures de services, etc. qui nous entourent. A l’issue de cette unité d’enseignement les étudiants doivent avoir compris les problématiques propres à ce type de systèmes, et maîtriser l’ensemble des outils (modèles, algorithmes, éléments d’infrastructure, composants logiciels, …) nécessaires à leur conception, leur utilisation et leur développement.
Bases de Données - 30 heures
Cet enseignement est consacré à l’étude des systèmes de gestion de bases de données. Il a pour objectif d’étudier le modèle relationnel, le langage de requêtes SQL et les techniques de conception de schéma de bases de données. La gestion de données tient une place centrale et croissante dans le développement des technologies de l’information. Cet enseignement traite de ce sujet essentiel en étudiant les technologies des Bases de Données. Les systèmes de gestion de bases de données permettent de gérer des volumes importants de données, de garantir leur cohérence et leur sécurité. Ils offrent un accès optimisé aux données et assurent la fiabilité des traitements concurrents appliqués aux données. Ce cours est consacré au modèle relationnel. Il présente les principes de ce modèle : concepts descriptifs, cohérence et intégrité, outils de manipulation, confidentialité et vues, etc. Il présente également le langage SQL et les outils conceptuels et formels permettant une bonne structuration des données et des schémas des bases de données relationnelles. Introduction au Framework Hadoop et au modèle MapReduce - 30 heures L’objectif de cet enseignement très pratique est de présenter comment installer et configurer Hadoop, d’initier au modèle de programmation MapReduce et à l’utilisation de technologies NoSQL, dans la perspective du projet Fil Rouge démarrant en P2. Parmi les points abordés : aspects théoriques du calcul distribué (verrous distribués, algorithmes d’élection, paradigmes de calcul distribué, problème de consensus, tolérance à la panne, etc.), utilisation des machines virtuelles AWS, installation du framework Hadoop (Zookeeper + HDFS + MapReduce), administration du framework Hadoop (taux de réplication HDFS, copie distribuée inter-cluster), utilisation du framework Hadoop pour la mise en œuvre d’opérations MapReduce, utilisation de la bibliothèque Hadoop streaming, installation de la base de données orientée documents MongoDB…
NoSQL – 42 heures
Cette UE pratique présente des technologies BD émergentes dans le domaine de la gestion de données hétérogènes, massives, complexes ou semi-structurées. Les systèmes de gestion de bases de données sont en constante évolution pour répondre aux nouveaux besoins des applications (web, SI, etc.). Ces nouveaux besoins se caractérisent par une complexité des données, des volumes de données de plus en plus importants et une hétérogénéité croissante. Cet enseignement présente les composants essentiels des systèmes de gestion de bases de données (stockage, indexation, transactions, évaluation de requêtes, optimisation, répartition). Les principales technologies utilisées sont : PostgreSQL, MongoDB , Elasticsearch, Cassandra et Spark. L’UE est validée par un projet en groupe.
Kit Data Science - 20 heures
L’objectif de cet enseignement est de permettre aux élèves de maitriser un certain nombre de techniques opérationnelles pour acquérir automatiquement, stocker, analyser statistiquement des données et visualiser les résultats dans la perspective du projet Fil Rouge démarrant en P2. L’évaluation se fait sous la forme d’un mini-projet. Le cours se structure en 5 parties : Gestion d’un code informatique - Contrôle de version, Acquisition de données, Stockage des données, Traitement des données, Visualisation des données
Algorithmes distribués pour le Big Data - 39 heures
Ce cours présente des algorithmes pour l’analyse et l’exploration des données à partitionnement, ranking, règles d’association, systèmes de recommandation, etc. Economie de l’internet et droit des données Personnelles - 20 heures Il s’agit d’aborder des éléments d’économie de protection de la vie privée, de la réputation et des asymétries d’information ainsi que de valorisation de données sur les moteurs de recherche et les réseaux socio-numériques. Ce cours propose également une étude prospective sur les scénarios possibles autour des données personnelles et des big data à moyen et long terme.
Présentation - Développement personnel – Techniques de recherche de stage - Projets « fil rouge » - 170 heures
Chaque projet est réalisé en petit groupe (4 à 5 stagiaires) et vise à explorer un thème du Big Data présentant plusieurs facettes (e.g. infrastructure, analyse, exploitation, mise en production, droit, business model). Le travail demandé inclut des recherches bibliographiques, des étapes de modélisation, des travaux de développement et d’expérimentation. Ces projets sont proposés et encadrés par des professionnels, le suivi hebdomadaire est assuré par des enseignants-chercheurs. Une formation sur le travail en équipe et la prise de parole en public permet de mener efficacement ce projet. La recherche de stage et les techniques de présentation écrite et orale terminent ce module. Introduction à la sécurité dans le domaine Big Data - 30 heures L’objectif de cet enseignement est de présenter les concepts fondamentaux de la sécurité des systèmes information, ainsi qu’un panorama des différents chapitres de la sécurité dans le contexte Big Data: Sécurité des SI et protection des données, Sécurité Internet, attaques logiques et vulnérabilités, Introduction à la cryptographie, Management de la sécurité, Infrastructures à clés publiques, applications sécurisées, Protection des données personnelles, Architectures de sécurité, Sécurité opérationnelle, sécurité dans un environnement cloud computing
Données du Web - 72 heures
L’objectif de cette UE est d’étudier les différentes technologies, outils, concepts permettant d’exploiter au mieux la vaste source d’information qu’est le Web ; en particulier, nous nous 3
intéresserons aux technologies des moteurs de recherche sur le Web, présents et futurs. Les thèmes suivants seront abordés :
- Technologies XML (XML, XPath, XSLT, XQuery), bases de données XML
- Moteurs de recherche sur le Web, recherche d’information
- Extraction d’informations depuis le Web
- Web sémantique
- SI Décisionnels, Entrepôts de données, Règles d’associations
- Fouille de données du Web (classification, régression logistique)
- Calcul et stockage à l’échelle du Web : MapReduce, HBase
- Visualisation, analyse exploratoire, méthodes factorielles
- Systèmes de recommandation
Visualisation d’Information - 24 heures
Le cours a pour but d’introduire les concepts et techniques relatifs à la visualisation d’information. Le domaine de visualisation d’information concerne des techniques de représentation de données complexes, n’ayant pas une représentation naturelle et évidente. Il est situé à l’intersection du graphisme, de l’interaction humain-machine (IHM) et de la science cognitive. Il vise à donner une meilleure compréhension de données abstraites et complexes, telle que des données symboliques, tabulaires, hiérarchiques, textuelles ou en réseau.
L’écosystème Big Data - 30 heures
Les écosystèmes économiques ? Des univers aussi riches et complexes que les écosystèmes naturels, où petits et gros se rendent service et se dévorent, où de nouveaux modèles d’offres ou d’affaires sont les leviers par lesquels l’évolution renouvelle les paysages concurrentiels. Le Big Data, par son potentiel d’innovation multi-sectoriel, aura à son échelle un impact certain, forçant l’adaptation, permettant l’émergence, ou poussant vers la sortie les acteurs selon leurs positions et leurs gènes business. Par un mélange de modèles et notions fondamentales et modèles, d’exemples réels et de témoignages de professionnels de cet écosystème, ce module explorera comment les Big Data prennent appui sur l’environnement économique en place pour le modifier.
Internet des objets – 24 heures
Les systèmes industriels et les multiples capteurs installés dans les différents matériels génèrent des masses de données importantes. Les technologies Big Data permettent désormais le traitement de ces informations.
Séminaires – 272 heures
Conférences et séminaires présentés par des experts du domaine et des professionnels du secteur sur des mises en œuvre opérationnelles.