Cours spécialisés S2

  • 4 cours à choisir parmi une liste de cours couvrant un large spectre thématique
  • de janvier à mi-avril
  • examens en avril
  • rattrapages en juin
  • 12 ECTS
  • plateforme pédagogique : Moodle
Intitulé de cours Enseignant·e·s
Analyse statistique de graphes C. Matias
Approximation et traitement de données en grande dimension A. Cohen
Confidentialité et équité algorithmique C. Denis, R. Pinot
Gestion des données O. Schwander
Inférence géométrique E. Aamari
Machine learning pour données médicales X. Tannier
Méthodes de simulation pour les modèles génératifs S. Le Corff
Modèles statistiques pour l’écologie S. Robin
Modélisation et statistique bayésienne computationnelle N. Bousquet
Optimisation stochastique, apprentissage PAC-Bayésien et inférence variationnelle A. Godichon-Baggioni, B-E. Chérief-Abdellatif
Séries temporelles F. Guilloux
Statistique bayésienne non-paramétrique I. Castillo
Topics in modern machine learning E. Aamari, C. Boyer, I. Castillo,E. Roquain

Analyse statistique de graphes

Responsable C. Matias

Objectif L’analyse statistique des réseaux d’interaction (ou graphes) connaît de nos jours un fort développement dans des domaines très variés (internet, biologie, réseaux sociaux, etc.) avec des données de bien plus grande taille (quelques centaines, milliers, voire millions de nœuds). L’objectif du cours est d’apprendre à manipuler et modéliser des données de type réseaux ainsi que de se familiariser avec des méthodes de classification et inférence statistique sur des graphes. De nombreux TP sous R permettront de pratiquer l’analyse de graphes et de mettre en œuvre les méthodes statistiques.

Prérequis notions fondamentales de probabilités et statistique, connaissance de R

Thèmes abordés

  1. Statistiques descriptives élémentaires des réseaux et visualisation
  2. Détection de communautés et de la classification des nœuds
  3. Modèles de graphes aléatoires et des méthodes d’inférence statistique

Approximation et traitement de données en grande dimension

Responsable A. Cohen

Objectif Reconstruire une fonction inconnue à partir de données ponctuelles, exacte ou bruitées, est un problème mathématique rencontré dans une multitude de contextes applicatifs. On peut citer l’interpolation ou l’apprentissage statistique à partir de données expérimentales, la mise au point de surfaces de réponses issues de codes numériques ou d’équations aux dérivées partielles. Ces tâches deviennent particulièrement délicates en grande dimension, les méthodes numériques classiques étant souvent mises en échec. Ce cours explorera les fondements mathématiques de ce problème aussi bien sous l’angle de la théorie de l’approximation que de l’analyse numérique et des statistiques. Des développements récents permettant de traiter certains problèmes en grande dimension seront abordés.

Prérequis Notions fondamentales d’analyse fonctionnelle

Thèmes abordés

  1. Théorie de l’approximation lineaire et non-linéaire
  2. Epaisseurs et entropies de Kolmogorov
  3. Interpolation, régression et méthodes de moindres carrés
  4. Approximation parcimonieuse en grande dimension
  5. EDP paramétriques et bases réduites

Confidentialité et équité algorithmique

Responsables C. Denis R. Pinot

Objectif
L’objectif de ce cours est de sensibiliser les étudiant⋅e⋅s aux enjeux de confiance liés à l’utilisation des algorithmes d’apprentissage automatique. Les défis liés à la confiance dans l’apprentissage automatique sont nombreux et concernent aussi bien le milieu de la recherche que le monde de l’entreprise (notamment en raison de la nouvelle réglementation européenne entrée en vigueur en 2018). Le cours est divisé en deux parties, chacune abordant une thématique liée à l’apprentissage automatique de confiance. La première partie se concentre sur les questions relatives à la protection des données personnelles. La seconde partie fournit des outils de compréhension des problématiques de biais et d’équité algorithmique.

Prérequis notions fondamentales de probabilités et statistique. Notions élémentaires d’apprentissage statistique et d’optimisation

Thèmes abordés

  1. Confidentialité dans analyse statistique des bases de données (k-anonymat, confidentialité différentielle, etc).
  2. Apprentissage supervisé sous contrainte de confidentialité différentielle.
  3. Équité algorithmique en apprentissage statistique (parité statistique, parité statistique conditionnelle, etc).
  4. Méthodes in-processing et post-processing pour l’équité algorithmique.

Gestion des données

Responsable O. Schwander

Objectif apprendre à charger et manipuler des données réelles, déployer une chaîne de traitement telle qu’utilisée en entreprise, comprendre les problèmes posés par la manipulation de données dans une application réelle. Ces points sont des préliminaires essentiels à l’intégration de méthodes statistiques avancées dans des applications réelles.

Prérequis connaissances basiques d’un langage de programmation

Thèmes abordés

  1. Systèmes de gestion des bases de données (SQL et noSQL)
  2. Business Intelligence (ETL, Data Warehouse, OLAP)
  3. Extraction de données sur le web (services web, scraping)
  4. Paradigme MapReduce pour le Big Data (Spark, SPARKQL)

Inférence géométrique

Responsable E. Aamari

Objectif Les données peuvent souvent être représentées par des nuages de points dans des espaces de grande dimension. En pratique, on constate que ces points ne sont pas distribués uniformément dans l’espace ambiant : ils se localisent à proximité de structures non-linéaires de plus petite dimension, comme des courbes ou des surfaces, qu’il est intéressant de comprendre. L’inférence géométrique, aussi appelée analyse topologique de données, est un domaine récent consistant en l’étude des aspects statistiques associés à la géométrie des données. Ce cours a pour but de donner une introduction à ce sujet en pleine expansion.

Prérequis notions fondamentales de Probabilités et Statistique. Toutes les notions nécessaires de géométrie et de topologie seront introduites ou rappelées au fil du cours.

Thèmes abordés

  1. Introduction et motivations
  2. Estimation du support d’une densité
  3. Reconstruction de compact
  4. Distance à la mesure et inférence robuste
  5. Estimation de l’homologie d’une sous-variété
  6. Persistance topologique
  7. Graphes de Reeb et algorithme Mapper

Machine learning pour données médicales

Responsable X. Tannier

Objectif Le but de ce cours est de sensibiliser les étudiantes et les étudiants aux enjeux spécifiques de l’analyse et de la modélisation des données de santé, et en particulier des données médicales et cliniques, à travers des travaux sur des cas pratiques du domaine.

Prérequis notions fondamentales de probabilités et statistique, algèbre linéaire, apprentissage statistique, Python.

Thèmes abordés

  1. Médecine et apprentissage statistique (image, signal, texte, données structurées)
  2. Cas d’usage sur diverses natures de données et de tâches
  3. Interprétabilité des modèles
  4. Inférence causale

Méthodes de simulation pour les modèles génératifs

Responsable S. Le Corff

Objectif La simulation de variables aléatoires en grande dimension est un véritable défi pour de nombreux problèmes de machine learning récents et pour l’apprentissage de modèles génératifs profonds. Ce problème se rencontre par exemple dans un contexte bayésien lorsque la loi a posteriori n’est connue qu’à une constante de normalisation près, dans le cadre des auto encodeurs variationnels ou encore pour la métamodélisation de systèmes dynamiques complexes.

De nombreuses méthodes sont basées sur des approches de type “Importance Sampling” ou “Sequential Monte Carlo” dont nous rappelerons les éléments principaux. Pour surmonter les faiblesses inhérentes à ces méthodologies en grande dimension ou pour les modèles génératifs profonds (à base de réseaux récurrents, réseaux denses ou convolutifs), nous étudierons dans ce cours de récentes solutions en mettant l’accent sur les aspects méthodologiques. Le fonctionnement de ces méthodes sera illustré à l’aide de jeux de données publics pour des problématiques de “computer vision” et de prédictions de séries temporelles.

Prérequis notions fondamentales de probabilités et statistique, notions concernant les méthodes de Monte Carlo et chaînes de Markov

Thèmes abordés

  1. Rappels sur les modèles de Markov cachés et leur inférence (score de Fisher, algorithme Expectation Maximization)
  2. Méthodes de Monte Carlo séquentielles (filtrage et lissage) pour les modèles à espace d’état
  3. Méthodes de Monte Carlo séquentielles variationnelles
  4. Flots normalisants et “neural importance sampling”
  5. Estimation variationnelle en ligne

Modèles statistiques pour l’ écologie

Responsable S. Robin

Objectif L’écologie s’intéresse aux relations que les espèces vivantes entre- tiennent entre elles et avec leur milieu. L’analyse et la compréhension de ces interac- tions passe fréquemment par une modélisation statistique impliquant des variables latentes (c’est-à-dire non observées) visant à décrire les structures et les processus qui sous-tendent ces interactions. L’objectif de ce cours est de présenter certains de ces modèles comme les modèles de distributions (jointes) d’espèces ou les modèles de réseaux écologiques. Les mo- dèles les plus simples sont des modèles linéaires généralisés, éventuellement mixtes. Les modèles plus complexes posent des problèmes d’inférence spécifiques qui peuvent être surmontées grâce à des généralisations de l’algorithme EM. Un des objectifs principaux de ce cours est la bonne compréhension de tels modèles et la définition d’un algorithme permettant d’en inférer les paramètres. Nous utiliserons également la représentation de ces modèles selon le formalisme des modèles graphiques qui permettent de comprendre la structure de dépendance entre les différentes variables (observés ou latentes) et de d’anticiper la complexité de l’algorithme d’inférence. Cette représentation est par ailleurs pertinente pour traiter le problème de l’inférence de réseaux écologiques, dans lequel il s’agit notamment de distinguer entre interactions directes ou indirectes entre les espèces. Certains des modèles présentés seront mis en oeuvre lors de séances de travaux dirigés sur machine.

Prérequis notions fondamentales de probabilités et statistique, connaissance de R

Thèmes abordés

  1. Modèles à variables latentes, modèles graphiques
  2. Modèles de distribution d’espèces
  3. Modèles de réseaux écologiques

Modélisation et statistique bayésienne computationnelle

Responsable N. Bousquet

Objectif présenter d’une part les principales méthodologies de modélisation bayésienne appliquées à des problèmes d’aide à la décision en univers risqué, et d’autre part des méthodes avancées de calcul inférentiel permettant l’enrichissement de l’information utile, en fonction de l’emploi et de la nature des modèles. Des exemples réels (industrie, environnement, étude de risque..) illustrent abondamment ce cours.

Prérequis notions fondamentales de probabilités et statistique, statistique inférentielle, statistique asymptotique, méthodes de Monte-Carlo, calcul scientifique en R et en Python (les deux langages seront utilisés). Des liens avec le machine learning et la statistique bayésienne non paramétrique sont fréquents.

Thèmes abordés

  1. Formalisation et résolution de problèmes d’aide à la décision en univers risqué, représentation probabiliste des incertitudes (Cox-Jaynes, de Finetti)
  2. Maximum d’entropie, familles exponentielles, modélisation par données virtuelles
  3. Règles d’invariance, de compatibilité et de cohérence pour les modèles bayésiens
  4. Algorithmes de Gibbs, MCMC adaptatives, introduction aux chaînes de Markov cachées, méthodes de filtrage et approches « likelihood-free » (ABC); utilisation de logiciels adaptés
  5. Modélisation bayésienne fonctionnelle, processus gaussiens, calibration par expériences numériques, critères d’enrichissement bayésiens

Optimisation stochastique, apprentissage PAC-Bayésien et inférence variationnelle

Responsables A. Godichon-Baggioni, Badr-Eddine Chérief-Abdellatif

Objectif Ce cours est divisé en deux parties. La première partie s’attache à présenter et analyser les méthodes stochastiques pour l’optimisation numérique. La deuxième partie fournit un aperçu de la théorie PAC-Bayésienne, en partant de la théorie de l’apprentissage statistique (bornes de généralisation et inégalités oracles) et en couvrant les développements algorithmiques par inférence variationnelle, jusqu’aux analyses PAC-Bayésiennes récentes des propriétés de généralisation des réseaux de neurones profonds.

Prérequis notions fondamentales de probabilités et statistique, notions d’optimisation convexe, logiciel R ou python, notions élémentaires de théorie des probabilités et d’apprentissage statistique.

Thèmes abordés

  1. Théorèmes de convergence pour les Martingales
  2. Algorithmes de gradient stochastiques et applications
  3. Généralisation en apprentissage statistique
  4. Théorie PAC-Bayésienne
  5. Inférence variationnelle
  6. Bornes de généralisation en apprentissage profond

Séries temporelles

Responsable F. Guilloux

Objectif Initiation aux modèles mathématiques de séries temporelles, visant à étudier des données dont la structure est déterminée par les corrélations au cours du temps. Sans chercher à multiplier les concepts et les modèles, ni viser à la maîtrise de l’ensemble des méthodes utilisées en pratiques, l’ambition sera d’acquérir une bonne connaissance des idées mathématiques à la base de ces modèles, en mêlant l’intuition à la rigueur mathématique.

Prérequis notions fondamentales de probabilités, statistique et algèbre linéaire, connaissance basique de R ou Python

Thèmes abordés

  1. Les données temporelles et leur modélisation
  2. Structure de corrélation entre les variables, stationnarité et conséquences
  3. Prévision linéaire
  4. Modèles ARMA
  5. Compléments : Analyse spectrale, tests, séries multidimensionnelles, modèles à espaces d’état

Statistique bayésienne non-paramétrique

Responsable I. Castillo

Objectif expliquer l’approche bayésienne non-paramétrique. Le paramètre d’intérêt est de dimension infinie et on étudie la loi a posteriori bayésienne correspondante sous l’angle de la convergence.

Prérequis notions fondamentales de probabilités et statistique

Thèmes abordés

  1. Loi a priori, loi a posteriori. Cadre général d’obtention de vitesses de convergence
  2. Processus gaussiens, adaptation à la régularité
  3. Deep Bayes : réseaux de neurones, processus gaussiens profonds et adaptation à des structures cachées
  4. Approximations variationnelles de lois a posteriori

Topics in modern machine learning

Responsables E. Aamari, C. Boyer, I. Castillo, E. Roquain

Objectif Ce cours tentera de faire un tour d’horizon des dernières tendances mathématiques dans la communauté du machine learning et de l’apprentissage statistique.

Thèmes abordés

  1. Théorie de l’approximation pour les réseaux de neurones
  2. Dimension VC pour les réseaux de neurones
  3. Bornes minimax pour la régression avec réseaux de neurones
  4. GANs
  5. Biais implicite des descentes de gradient
  6. Interpolation & overfitting bénin
  7. Confidentialité
M2 Statistique
M2 Statistique
Master Mathématiques et Applications

Formation en statistique mathématique, machine learning et data science