Science des données et apprentissage
Master InformatiqueParcours Sciences des données et systèmes complexes (SDSC)
ComposanteUFR de mathématique et d'informatique
Catalogue2024-2025
Description
Cet enseignement porte sur la méthodologie et les méthodes d’apprentissage en science des données. Il est divisée en quatre modules :
- Introduction à la science des données
- Apprentissage supervisé : concepts, méthodes et applications
- Apprentissage non-supervisé : concepts, méthodes et applications
- Introduction à l’apprentissage profond.
Compétences requises
À l'entrée de cette UE, un étudiant devrait savoir :
- Écrire des programmes simples en Python
Compétences visées
À l'issue de cet enseignement un étudiant saura :
- Mettre en forme les données en vue de les utiliser sur une tâche d’apprentissage
- Expliquer les fondements de l’apprentissage des principales méthodes supervisées et non-supervisées, dont les réseaux de neurones
- Identifier et choisir parmi ces méthodes les plus pertinentes à utiliser en fonction de la tâche d’apprentissage visée et de la nature des données à disposition
- Mettre en œuvre et utiliser ces méthodes
- Evaluer un résultat d’apprentissage avec les bons outils en fonction de l’objectif visé
- Mettre en place un pipeline d’entraînement afin de comparer et sélectionner un ensemble de méthodes avec différents hyperparamètres.
Disciplines
- Informatique
Syllabus
Les principaux thèmes étudiés sont :
- Concepts et définition de la science des données
- Les différents métiers : Scientifique des données (cœur de l’IA), Ingénieur des données (Intégration de l’IA dans des processus métiers), Utilisateur (Processus métiers ou usage personnel)
- Défis et enjeux méthodologiques, éthiques, sociétaux ...
- La préparation des données : formatage des données, normalisation, split des jeux de données et validation croisée, …
- Les principales méthodes d’évaluation supervisées (F1-score, IoU, AUC, matrice de confusion, ...) et non-supervisée (ARI, NMI, score de silhouette, …) et de comparaison (ranking, p-value, graphique de win-loss, ...)
- Stratégie d’entrainement : pipeline d’entrainement et random ou grid seach
- Le clustering : un problème mal défini et mal posé
- Principales méthodes supervisées : arbres de décision, modèles bayésien, apprentissage à base d'instances, SVM, apprentissage d'ensemble de règles
- Principales méthodes non-supervisées : partitionnement, mélange de lois, hiérarchiques, formation de concepts
- Recherche de motifs fréquents
- Réseaux de neurones artificiels : rappels et approfondissements
- Vers l’apprentissage profond : intérêt des réseaux de neurones convolutifs
- Optimisation de l’apprentissage des réseaux de neurones
- Différents types d'apprentissage : apprentissage par renforcement et apprentissage adversarial
Bibliographie
- Russell, S. J., & Norvig, P. (2016). Artificial intelligence: a modern approach. Pearson.
- Barra, V., Cornuéjols, A., & Miclet, L. (2021). Apprentissage artificiel: Concepts et algorithmes-De Baye et Hume au Deep learning. Editions Eyrolles.
- Beyerer, J., Hagmanns, R., & Stadler, D. (2024). Pattern recognition: introduction, features, classifiers and principles. Walter de Gruyter GmbH & Co KG.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.