Cours spécialisés S2

  • 4 cours à choisir parmi une longue liste de cours
  • de janvier à mi-avril
  • examens en avril
  • rattrapages en juin
  • 12 ECTS
  • plateforme pédagogique : Moodle
Intitulé de cours Enseignant·e·s
Analyse statistique de graphes T. Rebafka
Approximation et traitement de données en grande dimension A. Cohen
Compressed sensing, reconstruction et complétion de matrices C. Boyer
Gestion des données O. Schwander
Inférence géométrique E. Aamari
Machine learning pour données médicales N. Sokolovska
Modèles statistiques pour l’écologie S. Robin
Modélisation et statistique bayésienne computationnelle N. Bousquet
Optimisation stochastique A. Godichon-Baggioni, A. Guyader
Processus empiriques P. Deheuvels
Réseaux de neurones et approximation numérique adaptative B. Després
Séries temporelles F. Guilloux
Topics in modern machine learning E. Aamari, C. Boyer, I. Castillo,E. Roquain

Analyse statistique de graphes

Responsable T. Rebafka

Objectif L’analyse statistique des réseaux d’interaction (ou graphes) connaît de nos jours un fort développement dans des domaines très variés (internet, biologie, réseaux sociaux, etc.) avec des données de bien plus grande taille (quelques centaines, milliers, voire millions de nœuds). L’objectif du cours est d’apprendre à manipuler et modéliser des données de type réseaux ainsi que de se familiariser avec des méthodes de classification et inférence statistique sur des graphes. De nombreux TP sous R permettront de pratiquer l’analyse de graphes et de mettre en œuvre les méthodes statistiques.

Prérequis notions fondamentales de probabilités et statistique, connaissance de R

Thèmes abordés

  1. Statistiques descriptives élémentaires des réseaux et visualisation
  2. Détection de communautés et de la classification des nœuds
  3. Modèles de graphes aléatoires et des méthodes d’inférence statistique

Approximation et traitement de données en grande dimension

Responsable A. Cohen

Objectif Reconstruire une fonction inconnue à partir de données ponctuelles, exacte ou bruitées, est un problème mathématique rencontré dans une multitude de contextes applicatifs. On peut citer l’interpolation ou l’apprentissage statistique à partir de données expérimentales, la mise au point de surfaces de réponses issues de codes numériques ou d’équations aux dérivées partielles. Ces tâches deviennent particulièrement délicates en grande dimension, les méthodes numériques classiques étant souvent mises en échec. Ce cours explorera les fondements mathématiques de ce problème aussi bien sous l’angle de la théorie de l’approximation que de l’analyse numérique et des statistiques. Des développements récents permettant de traiter certains problèmes en grande dimension seront abordés.

Prérequis Notions fondamentales d’analyse fonctionnelle

Thèmes abordés

  1. Théorie de l’approximation lineaire et non-linéaire
  2. Epaisseurs et entropies de Kolmogorov
  3. Interpolation, régression et méthodes de moindres carrés
  4. Approximation parcimonieuse en grande dimension
  5. EDP paramétriques et bases réduites

Compressed sensing, reconstruction et complétion de matrices

Responsable C. Boyer

Page web du cours

Objectif L’objectif de ce cours est double : illustrer le traitement de données en grande dimension lorsque des données sont manquantes (par le prisme de l’acquisition compressée et de la complétion de matrice), et acquérir les bases d’optimisation convexe. Ces deux thèmes, qui seront abordés de concert car intimement liés, ouvrent la voie à de nombreux autres domaines d’apprentissage statistique et problèmes rencontrés en science des données.

Prérequis Notions fondamentales de probabilités, statistique inférentielle et algèbre linéaire, calcul scientifique en Python

Thèmes abordés

  1. Introduction à l’acquisition compressée et à la complétion de matrice
  2. Outils d’analyse convexe
  3. Parcimonie, relaxation convexe et algorithmes primaux
  4. Conditions RIP pour l’acquisition compressée
  5. Dualité et algorithmes duaux

Gestion des données

Responsable O. Schwander

Objectif apprendre à charger et manipuler des données réelles, déployer une chaîne de traitement telle qu’utilisée en entreprise, comprendre les problèmes posés par la manipulation de données dans une application réelle. Ces points sont des préliminaires essentiels à l’intégration de méthodes statistiques avancées dans des applications réelles.

Prérequis connaissances basiques d’un langage de programmation

Thèmes abordés

  1. Systèmes de gestion des bases de données (SQL et noSQL)
  2. Business Intelligence (ETL, Data Warehouse, OLAP)
  3. Extraction de données sur le web (services web, scraping)
  4. Paradigme MapReduce pour le Big Data (Spark, SPARKQL)

Inférence géométrique

Responsable E. Aamari

Page web du cours

Objectif Les données peuvent souvent être représentées par des nuages de points dans des espaces de grande dimension. En pratique, on constate que ces points ne sont pas distribués uniformément dans l’espace ambiant : ils se localisent à proximité de structures non-linéaires de plus petite dimension, comme des courbes ou des surfaces, qu’il est intéressant de comprendre. L’inférence géométrique, aussi appelée analyse topologique de données, est un domaine récent consistant en l’étude des aspects statistiques associés à la géométrie des données. Ce cours a pour but de donner une introduction à ce sujet en pleine expansion.

Prérequis notions fondamentales de Probabilités et Statistique. Toutes les notions nécessaires de géométrie et de topologie seront introduites ou rappelées au fil du cours.

Thèmes abordés

  1. Introduction et motivations
  2. Estimation du support d’une densité
  3. Reconstruction de compact
  4. Distance à la mesure et inférence robuste
  5. Estimation de l’homologie d’une sous-variété
  6. Persistance topologique
  7. Graphes de Reeb et algorithme Mapper

Machine learning pour données médicales

Responsable N. Sokolovska

Page web du cours

Objectif Le but de ce cours est double : d’une part, découvrir les défis réels de la biologie fondamentale et de la médecine où l’apprentissage statistique est déjà utilisé avec succès ; d’autre part, acquérir les bases pour modéliser des données médicales complexes.

Prérequis notions fondamentales de probabilités et statistique, algèbre linéaire, Python

Thèmes abordés

  1. Médecine et apprentissage statistique
  2. Clustering des données médicales : analyse exploratoire
  3. Stratification efficace des individus (patients) pour le développement des méthodes de médecine personnalisée
  4. Modèles interprétables
  5. A la recherche de la causalité dans des données (drug effects, variables latentes)

Modèles statistiques pour l' écologie

Responsable S. Robin stephane.robin@sorbonne-universite.fr

Objectif L’écologie s’intéresse aux relations que les espèces vivantes entretiennent entre elles et avec leur milieu. L’analyse et la compréhension de ces interactions passe fréquemment par une modélisation statistique visant à décrire les structures et les processus qui sous-tendent ces interactions. L’objectif de ce cours est de présenter certains de ces modèles comme les modèles de distributions (jointes) d’espèces ou les modèles de réseaux écologiques. Les modèles les plus simples sont des modèles linéaires généralisés, éventuellement mixtes. Les modèles plus complexes sont souvent des modèles à variables latentes qui posent des problèmes d’inférence spécifiques qui seront discutés. De même la distinction entre interactions directes ou indirectes entre les espèces peut être reformulée en termes de modèle graphique, faisant ainsi le lien avec des méthodes plus générales d’inférence de réseaux.

Prérequis notions fondamentales de probabilités et statistique, connaissance de R

Thèmes abordés

  1. Modèles à variables latentes, modèles graphiques
  2. Modèles de distribution d’espèces
  3. Modèles de réseaux écologiques

Modélisation et statistique bayésienne computationnelle

Responsable N. Bousquet

Page web du cours

Objectif présenter d’une part les principales méthodologies de modélisation bayésienne appliquées à des problèmes d’aide à la décision en univers risqué, et d’autre part des méthodes avancées de calcul inférentiel permettant l’enrichissement de l’information utile, en fonction de l’emploi et de la nature des modèles. Des exemples réels (industrie, environnement, étude de risque..) illustrent abondamment ce cours.

Prérequis notions fondamentales de probabilités et statistique, statistique inférentielle, statistique asymptotique, méthodes de Monte-Carlo, calcul scientifique en R et en Python (les deux langages seront utilisés). Des liens avec le machine learning et la statistique bayésienne non paramétrique sont fréquents.

Thèmes abordés

  1. Formalisation et résolution de problèmes d’aide à la décision en univers risqué, représentation probabiliste des incertitudes (Cox-Jaynes, de Finetti)
  2. Maximum d’entropie, familles exponentielles, modélisation par données virtuelles
  3. Règles d’invariance, de compatibilité et de cohérence pour les modèles bayésiens
  4. Algorithmes de Gibbs, MCMC adaptatives, introduction aux chaînes de Markov cachées, méthodes de filtrage et approches « likelihood-free » (ABC); utilisation de logiciels adaptés
  5. Modélisation bayésienne fonctionnelle, processus gaussiens, calibration par expériences numériques, critères d’enrichissement bayésiens

Optimisation stochastique

Responsables A. Godichon-Baggioni, A. Guyader

Objectif présentation et analyse de méthodes stochastiques pour l’optimisation numérique

Prérequis notions fondamentales de probabilités et statistique, notions d’optimisation convexe, logiciel R ou python

Thèmes abordés

  1. Théorèmes de convergence pour les Martingales
  2. Algorithmes de gradient stochastiques et applications
  3. Rappels sur le principe des méthodes Monte-Carlo
  4. Monte-Carlo par Chaînes de Markov et recuit simulé

Processus empiriques

Responsable P. Deheuvels

Objectif introduire la théorie des processus empiriques en vue des applications statistiques pour des variables aléatoires réelles

Prérequis notions fondamentales de Probabilités et Statistique

Thèmes abordés

  1. Statistiques d’ordre et de rang
  2. Outils probabilistes et statistiques de base
  3. Principes d’invariance et lois limites fonctionnelles
  4. Processus empiriques locaux
  5. Processus empiriques spéciaux
  6. Processus empiriques indexés par des fonctions ou des ensembles

Réseaux de neurones et approximation numérique adaptative

Responsable B. Després

Objectif ce cours présente comment utiliser les réseaux de neurones pour l’approximation numérique adaptative.

Prérequis quelques notions d’analyse et un intérêt pour la programmation

Thèmes abordés

  1. Fonctions représentables par des réseaux de neurones.
  2. Preuves élémentaires du théorème de Cybenko. La fonction de Takagi.
  3. Construction de datasets et malédiction de la dimension.
  4. Interprétation des algorithmes de gradients stochastiques sous la forme d’équations différentielles ordinaires.
  5. Applications à des problèmes issus du calcul scientifique pour la CFD en lien avec la classification d’images.
  6. Illustration avec quelques logiciels.

Séries temporelles

Responsable F. Guilloux

Objectif apprendre à modéliser et à manipuler des données dont la structure est déterminée par les corrélations au cours du temps (données météorologiques, économiques, etc.).

Prérequis notions fondamentales de probabilités, statistique et algèbre linéaire, connaissance basique de R ou Python

Thèmes abordés

  1. Stationnarité, structure de corrélation entre les variables
  2. Prévision et illustration dans un cadre paramétrique (ARMA)
  3. Analyse spectrale, tests, séries multidimensionnelles, modèles à espaces d’état

Topics in modern machine learning

Responsables E. Aamari, C. Boyer, I. Castillo, E. Roquain

Objectif Ce cours tentera de faire un tour d’horizon des dernières tendances mathématiques dans la communauté du machine learning et de l’apprentissage statistique.

Thèmes abordés

  1. Théorie de l’approximation pour les réseaux de neurones
  2. Dimension VC pour les réseaux de neurones
  3. Bornes minimax pour la régression avec réseaux de neurones
  4. GANs
  5. Biais implicite des descentes de gradient
  6. Interpolation & overfitting bénin
  7. Confidentialité
M2 Statistique
M2 Statistique
Master Mathématiques et Applications

Formation en statistique mathématique, machine learning et data science