Science des données et apprentissage
Master InformatiqueParcours Sciences des données et systèmes complexes (SDSC)
ComposanteUFR de mathématique et d'informatique
Description
Cet enseignement porte sur la méthodologie et les méthodes d’apprentissage en science des données. Il est divisée en quatre modules :
- Introduction à la science des données
- Apprentissage supervisé : concepts, méthodes et applications
- Apprentissage non-supervisé : concepts, méthodes et applications
- Introduction à l’apprentissage profond.
Compétences requises
À l'entrée de cette UE, un étudiant devrait savoir :
- Écrire des programmes simples en Python
Compétences visées
À l'issue de cet enseignement un étudiant saura :
- Mettre en forme les données en vue de les utiliser sur une tâche d’apprentissage
- Expliquer les fondements de l’apprentissage des principales méthodes supervisées et non-supervisées, dont les réseaux de neurones
- Identifier et choisir parmi ces méthodes les plus pertinentes à utiliser en fonction de la tâche d’apprentissage visée et de la nature des données à disposition
- Mettre en œuvre et utiliser ces méthodes
- Evaluer un résultat d’apprentissage avec les bons outils en fonction de l’objectif visé
- Mettre en place un pipeline d’entraînement afin de comparer et sélectionner un ensemble de méthodes avec différents hyperparamètres.
Disciplines
- Informatique
Syllabus
Les principaux thèmes étudiés sont :
- Concepts et définition de la science des données
- Les différents métiers : Scientifique des données (cœur de l’IA), Ingénieur des données (Intégration de l’IA dans des processus métiers), Utilisateur (Processus métiers ou usage personnel)
- Défis et enjeux méthodologiques, éthiques, sociétaux ...
- La préparation des données : formatage des données, normalisation, split des jeux de données et validation croisée, …
- Les principales méthodes d’évaluation supervisées (F1-score, IoU, AUC, matrice de confusion, ...) et non-supervisée (ARI, NMI, score de silhouette, …) et de comparaison (ranking, p-value, graphique de win-loss, ...)
- Stratégie d’entrainement : pipeline d’entrainement et random ou grid seach
- Le clustering : un problème mal défini et mal posé
- Principales méthodes supervisées : arbres de décision, modèles bayésien, apprentissage à base d'instances, SVM, apprentissage d'ensemble de règles
- Principales méthodes non-supervisées : partitionnement, mélange de lois, hiérarchiques, formation de concepts
- Recherche de motifs fréquents
- Réseaux de neurones artificiels : rappels et approfondissements
- Vers l’apprentissage profond : intérêt des réseaux de neurones convolutifs
- Optimisation de l’apprentissage des réseaux de neurones
- Différents types d'apprentissage : apprentissage par renforcement et apprentissage adversarial
Bibliographie
- Russell, S. J., & Norvig, P. (2016). Artificial intelligence: a modern approach. Pearson.
- Barra, V., Cornuéjols, A., & Miclet, L. (2021). Apprentissage artificiel: Concepts et algorithmes-De Baye et Hume au Deep learning. Editions Eyrolles.
- Beyerer, J., Hagmanns, R., & Stadler, D. (2024). Pattern recognition: introduction, features, classifiers and principles. Walter de Gruyter GmbH & Co KG.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.