Cours spécialisés S2

Oct 13, 2023

4 cours à choisir parmi une liste de cours couvrant un large spectre thématique
de janvier à mi-avril
examens en avril
rattrapages en juin
12 ECTS
plateforme pédagogique : Moodle

Intitulé de cours	Enseignant·e·s
Analyse statistique de graphes	C. Matias
Confidentialité et équité algorithmique	C. Denis, R. Pinot
Gestion des données	O. Schwander
Processus ponctuels	C. Duval
Machine learning pour données médicales	X. Tannier
Méthodes de simulation pour les modèles génératifs	S. Le Corff
Modèles statistiques pour l’écologie	S. Robin
Modélisation et statistique bayésienne computationnelle	N. Bousquet
Optimisation stochastique, apprentissage PAC-Bayésien et inférence variationnelle	A. Godichon-Baggioni, B-E. Chérief-Abdellatif
Séries temporelles	F. Guilloux
Statistique bayésienne non-paramétrique	I. Castillo
Topics in modern machine learning	I. Castillo, E. Roquain, S. Coste, P. Humbert

Analyse statistique de graphes

Responsable C. Matias

Objectif L’analyse statistique des réseaux d’interaction (ou graphes) connaît de nos jours un fort développement dans des domaines très variés (internet, biologie, réseaux sociaux, etc.) avec des données de bien plus grande taille (quelques centaines, milliers, voire millions de nœuds). L’objectif du cours est d’apprendre à manipuler et modéliser des données de type réseaux ainsi que de se familiariser avec des méthodes de classification et inférence statistique sur des graphes. De nombreux TP sous R permettront de pratiquer l’analyse de graphes et de mettre en œuvre les méthodes statistiques.

Prérequis notions fondamentales de probabilités et statistique, connaissance de R

Thèmes abordés

Statistiques descriptives élémentaires des réseaux et visualisation
Détection de communautés et de la classification des nœuds
Modèles de graphes aléatoires et des méthodes d’inférence statistique

Confidentialité et équité algorithmique

Responsables C. Denis R. Pinot

Objectif
L’objectif de ce cours est de sensibiliser les étudiant⋅e⋅s aux enjeux de confiance liés à l’utilisation des algorithmes d’apprentissage automatique. Les défis liés à la confiance dans l’apprentissage automatique sont nombreux et concernent aussi bien le milieu de la recherche que le monde de l’entreprise (notamment en raison de la nouvelle réglementation européenne entrée en vigueur en 2018). Le cours est divisé en deux parties, chacune abordant une thématique liée à l’apprentissage automatique de confiance. La première partie se concentre sur les questions relatives à la protection des données personnelles. La seconde partie fournit des outils de compréhension des problématiques de biais et d’équité algorithmique.

Prérequis notions fondamentales de probabilités et statistique. Notions élémentaires d’apprentissage statistique et d’optimisation

Thèmes abordés

Confidentialité dans analyse statistique des bases de données (k-anonymat, confidentialité différentielle, etc).
Apprentissage supervisé sous contrainte de confidentialité différentielle.
Équité algorithmique en apprentissage statistique (parité statistique, parité statistique conditionnelle, etc).
Méthodes in-processing et post-processing pour l’équité algorithmique.

Gestion des données

Responsable O. Schwander

Objectif apprendre à charger et manipuler des données réelles, déployer une chaîne de traitement telle qu’utilisée en entreprise, comprendre les problèmes posés par la manipulation de données dans une application réelle. Ces points sont des préliminaires essentiels à l’intégration de méthodes statistiques avancées dans des applications réelles.

Prérequis connaissances basiques d’un langage de programmation

Thèmes abordés

Systèmes de gestion des bases de données (SQL et noSQL)
Business Intelligence (ETL, Data Warehouse, OLAP)
Extraction de données sur le web (services web, scraping)
Paradigme MapReduce pour le Big Data (Spark, SPARKQL)

Processus ponctuels

Responsable C. Duval

Objectif Les processus ponctuels et processus à sauts interviennent dans la modélisation de nombreuses applications (neurosciences, sismologie, télécommunications,…). L’objectif de ce cours est tout d’abord d’introduire différentes familles de processus, d’étudier leurs spécificités et de voir comment les simuler. Ensuite, à partir d’observations discrètes des procédures d’estimations adaptées seront étudiées.

Prérequis notions fondamentales de Probabilités et Statistique et algèbre. Connaissance basique de Python.

Thèmes abordés

Processus de Poisson, processus de Lévy, processus de Hawkes
Discrétisation (haute fréquence et basse fréquence)
Estimation et bornes de risque

Machine learning pour données médicales

Responsable X. Tannier

Objectif Le but de ce cours est de sensibiliser les étudiantes et les étudiants aux enjeux spécifiques de l’analyse et de la modélisation des données de santé, et en particulier des données médicales et cliniques, à travers des travaux sur des cas pratiques du domaine.

Prérequis notions fondamentales de probabilités et statistique, algèbre linéaire, apprentissage statistique, Python.

Thèmes abordés

Médecine et apprentissage statistique (image, signal, texte, données structurées)
Cas d’usage sur diverses natures de données et de tâches
Interprétabilité des modèles
Inférence causale

Méthodes de simulation pour les modèles génératifs

Responsable S. Le Corff

Objectif La simulation de variables aléatoires en grande dimension est un véritable défi pour de nombreux problèmes de machine learning récents et pour l’apprentissage de modèles génératifs profonds. Ce problème se rencontre par exemple dans un contexte bayésien lorsque la loi a posteriori n’est connue qu’à une constante de normalisation près, dans le cadre des auto encodeurs variationnels ou encore pour la métamodélisation de systèmes dynamiques complexes.

De nombreuses méthodes sont basées sur des approches de type “Importance Sampling” ou “Sequential Monte Carlo” dont nous rappelerons les éléments principaux. Pour surmonter les faiblesses inhérentes à ces méthodologies en grande dimension ou pour les modèles génératifs profonds (à base de réseaux récurrents, réseaux denses ou convolutifs), nous étudierons dans ce cours de récentes solutions en mettant l’accent sur les aspects méthodologiques. Le fonctionnement de ces méthodes sera illustré à l’aide de jeux de données publics pour des problématiques de “computer vision” et de prédictions de séries temporelles.

Prérequis notions fondamentales de probabilités et statistique, notions concernant les méthodes de Monte Carlo et chaînes de Markov

Thèmes abordés

Rappels sur les modèles de Markov cachés et leur inférence (score de Fisher, algorithme Expectation Maximization)
Méthodes de Monte Carlo séquentielles (filtrage et lissage) pour les modèles à espace d’état
Méthodes de Monte Carlo séquentielles variationnelles
Flots normalisants et “neural importance sampling”
Estimation variationnelle en ligne

Modèles statistiques pour l’ écologie

Responsable S. Robin

Objectif L’écologie s’intéresse aux relations que les espèces vivantes entre- tiennent entre elles et avec leur milieu. L’analyse et la compréhension de ces interac- tions passe fréquemment par une modélisation statistique impliquant des variables latentes (c’est-à-dire non observées) visant à décrire les structures et les processus qui sous-tendent ces interactions. L’objectif de ce cours est de présenter certains de ces modèles comme les modèles de distributions (jointes) d’espèces ou les modèles de réseaux écologiques. Les mo- dèles les plus simples sont des modèles linéaires généralisés, éventuellement mixtes. Les modèles plus complexes posent des problèmes d’inférence spécifiques qui peuvent être surmontées grâce à des généralisations de l’algorithme EM. Un des objectifs principaux de ce cours est la bonne compréhension de tels modèles et la définition d’un algorithme permettant d’en inférer les paramètres. Nous utiliserons également la représentation de ces modèles selon le formalisme des modèles graphiques qui permettent de comprendre la structure de dépendance entre les différentes variables (observés ou latentes) et de d’anticiper la complexité de l’algorithme d’inférence. Cette représentation est par ailleurs pertinente pour traiter le problème de l’inférence de réseaux écologiques, dans lequel il s’agit notamment de distinguer entre interactions directes ou indirectes entre les espèces. Certains des modèles présentés seront mis en oeuvre lors de séances de travaux dirigés sur machine. Ce cours vise notamment à apprendre à définir un modèle pertinent pour répondre à une question écologique, concevoir un algorithme permettant d’en estimer les paramètres et implémenter cet algorithme.

Prérequis notions fondamentales de probabilités et statistique, connaissance de R

Thèmes abordés

Modèles à variables latentes, modèles graphiques
Modèles de distribution d’espèces, modèles de réseaux écologiques

Modélisation et statistique bayésienne computationnelle

Responsable N. Bousquet

Objectif présenter d’une part les principales méthodologies de modélisation bayésienne appliquées à des problèmes d’aide à la décision en univers risqué, et d’autre part des méthodes avancées de calcul inférentiel permettant l’enrichissement de l’information utile, en fonction de l’emploi et de la nature des modèles. Des exemples réels (industrie, environnement, étude de risque..) illustrent abondamment ce cours.

Prérequis notions fondamentales de probabilités et statistique, statistique inférentielle, statistique asymptotique, méthodes de Monte-Carlo, calcul scientifique en R et en Python (les deux langages seront utilisés). Des liens avec le machine learning et la statistique bayésienne non paramétrique sont fréquents.

Thèmes abordés

Formalisation et résolution de problèmes d’aide à la décision en univers risqué, représentation probabiliste des incertitudes (Cox-Jaynes, de Finetti)
Maximum d’entropie, familles exponentielles, modélisation par données virtuelles
Règles d’invariance, de compatibilité et de cohérence pour les modèles bayésiens
Algorithmes de Gibbs, MCMC adaptatives, introduction aux chaînes de Markov cachées, méthodes de filtrage et approches « likelihood-free » (ABC); utilisation de logiciels adaptés
Modélisation bayésienne fonctionnelle, processus gaussiens, calibration par expériences numériques, critères d’enrichissement bayésiens

Optimisation stochastique, apprentissage PAC-Bayésien et inférence variationnelle

Responsables A. Godichon-Baggioni, Badr-Eddine Chérief-Abdellatif

Objectif Ce cours est divisé en deux parties. La première partie s’attache à présenter et analyser les méthodes stochastiques pour l’optimisation numérique. La deuxième partie fournit un aperçu de la théorie PAC-Bayésienne, en partant de la théorie de l’apprentissage statistique (bornes de généralisation et inégalités oracles) et en couvrant les développements algorithmiques par inférence variationnelle, jusqu’aux analyses PAC-Bayésiennes récentes des propriétés de généralisation des réseaux de neurones profonds.

Prérequis notions fondamentales de probabilités et statistique, notions d’optimisation convexe, logiciel R ou python, notions élémentaires de théorie des probabilités et d’apprentissage statistique.

Thèmes abordés

Théorèmes de convergence pour les Martingales
Algorithmes de gradient stochastiques et applications
Généralisation en apprentissage statistique
Théorie PAC-Bayésienne
Inférence variationnelle
Bornes de généralisation en apprentissage profond

Séries temporelles

Responsable F. Guilloux

Objectif Initiation aux modèles mathématiques de séries temporelles, visant à étudier des données dont la structure est déterminée par les corrélations au cours du temps. Sans chercher à multiplier les concepts et les modèles, ni viser à la maîtrise de l’ensemble des méthodes utilisées en pratiques, l’ambition sera d’acquérir une bonne connaissance des idées mathématiques à la base de ces modèles, en mêlant l’intuition à la rigueur mathématique.

Prérequis notions fondamentales de probabilités, statistique et algèbre linéaire, connaissance basique de R ou Python

Thèmes abordés

Les données temporelles et leur modélisation
Structure de corrélation entre les variables, stationnarité et conséquences
Prévision linéaire
Modèles ARMA
Compléments : Analyse spectrale, tests, séries multidimensionnelles, modèles à espaces d’état

Statistique bayésienne non-paramétrique

Responsable I. Castillo

Objectif expliquer l’approche bayésienne non-paramétrique. Le paramètre d’intérêt est de dimension infinie et on étudie la loi a posteriori bayésienne correspondante sous l’angle de la convergence.

Prérequis notions fondamentales de probabilités et statistique

Thèmes abordés

Loi a priori, loi a posteriori. Cadre général d’obtention de vitesses de convergence
Processus gaussiens, adaptation à la régularité
Deep Bayes : réseaux de neurones, processus gaussiens profonds et adaptation à des structures cachées
Approximations variationnelles de lois a posteriori

Topics in modern machine learning

Responsables I. Castillo, E. Roquain, S. Coste, P. Humbert

Objectif Ce cours tentera de faire un tour d’horizon des dernières tendances mathématiques dans la communauté du machine learning et de l’apprentissage statistique.

Thèmes abordés

Théorie de l’approximation pour les réseaux de neurones
Dimension VC pour les réseaux de neurones
Bornes minimax pour la régression avec réseaux de neurones
Modèle de diffusion et modèles génératifs
Prédiction conformelle

Cours spécialisés S2

Analyse statistique de graphes

Confidentialité et équité algorithmique

Gestion des données

Processus ponctuels

Machine learning pour données médicales

Méthodes de simulation pour les modèles génératifs

Modèles statistiques pour l’ écologie

Modélisation et statistique bayésienne computationnelle

Optimisation stochastique, apprentissage PAC-Bayésien et inférence variationnelle

Séries temporelles

Statistique bayésienne non-paramétrique

Topics in modern machine learning

M2 Statistique

Master Mathématiques et Applications