Cours fondamentaux S1
- 5 cours obligatoires en machine learning, statistique mathématique et optimisation
- de septembre à décembre
- examens en décembre et début janvier
- rattrapages en juin
- 30 ECTS
- plateforme pédagogique : Moodle
Intitulé de cours | Enseignant·e·s |
---|---|
Apprentissage statistique | G. Biau |
Estimation non-paramétrique | I. Castillo & C. Dion |
Introduction à l’apprentissage automatique | M. Sangnier |
Modèle linéaire et grande dimension | E. Roquain |
Optimisation stochastique et généralisation pour le machine learning | C. Boyer |
Apprentissage statistique
Responsable G. Biau
Objectif Ce cours présente les grands principes de l’apprentissage statistique et les problématiques liées.
Prérequis Notions fondamentales de probabilités et statistique.
Thèmes abordés
- Introduction au problème de la classification supervisée
- Principe de minimisation du risque empirique, théorie de Vapnik-Chervonenkis
- Bornes de performance, pertes convexes, sélection de modèle
- Classification non paramétrique, théorème de Stone, plus proches voisins, arbres
- Classification par réseaux neuronaux
- Quantification et clustering
Estimation non-paramétrique
Responsables I. Castillo & C. Dion
Objectif Présenter des méthodes classiques d’estimation non-paramétrique, étudier le comportement des estimateurs introduits pour différents risques, introduire à l’optimalité des vitesses de convergence au sens minimax. Les notions introduites seront illustrées dans des exemples de modèles statistiques très utilisés en pratique : estimation de densité, régression non-paramétrique, signal en bruit blanc gaussien, modèles de graphes aléatoires.
Prérequis Notions fondamentales de probabilités, bases de statistique, estimation paramétrique, bases d’analyse fonctionnelle (cas Hilbert au moins).
Thèmes abordés
- Estimation non-paramétrique de densité
- Modèles de bruit blanc, de régression et de convolution
- Sélection de paramètres
- Seuillage et estimateurs par ondelettes
- Modèles de graphes aléatoires
- Bornes inférieures de vitesses au sens minimax
- Régions de confiance non-paramétriques
Introduction à l’ apprentissage automatique
Responsable M. Sangnier
Objectif Ce cours introduit les principales méthodes de prédiction (classification et régression), de clustering et de réduction de dimension. Il présente l’apprentissage statistique d’un point de vue algorithmique et sera illustré par des travaux pratiques (en Python) ainsi que par un challenge en science des données.
Prérequis Notions fondamentales de probabilités et statistique, analyse convexe, algèbre linéaire et calcul scientifique en Python.
Thèmes abordés
- Analyse discriminante, régression logistique, machines à vecteurs supports
- k-plus proches voisins, arbres de décision et méthodes ensemblistes (forêts et boosting)
- Modèle de mélange et algorithme EM, k-moyennes, clustering spectral et hiérarchique
- Analyse en composantes principales, projections aléatoires et positionnement multidimensionnel
Modèle linéaire et grande dimension
Responsable E. Roquain
Objectif appréhender les problématiques issues de la grande dimension dans le modèle linéaire.
Prérequis Notions fondamentales de probabilités et statistique, logiciel R.
Thèmes abordés
- Seuillage et hypothèse de parcimonie (sparsité)
- Estimateurs pénalisés : ridge et LASSO
- Régression logistique, régression Poisson et modèle linéaire généralisé
- Sélection et contrôle du taux de faux positifs
- Prédiction conformelle
Optimisation stochastique et généralisation pour le machine learning
Responsable C. Boyer
Objectif L’objectif de ce cours est d’étudier la convergence de nombreux algorithmes stochastiques (séquentiel ou mini-batch) dans le cadre de l’apprentissage supervisé. Des séances de travaux pratiques permettront de les implémenter en Python. Théoriquement, ces algorithmes permettent de contrôler l’erreur de généralisation des prédicteurs ainsi formés. Le cours comportera également des séances d’ouverture pour explorer le flot de gradient, la quantification de l’incertitude en terme de généralisation, et des algorithmes d’optimisation pour le transport optimal.
Prérequis Notions fondamentales de probabilités et statistique, calcul scientifique en Python
Thèmes abordés
- Introduction à l’optimisation convexe
- Algorithmes du premier et du second ordre
- Algorithmes de gradient stochastiques
- Apprentissage dans un cadre stochastique
- Régularisation convexe
- Prédiction conformelle