Science des données et apprentissage

Science des données et apprentissage
Master InformatiqueParcours Sciences des données et systèmes complexes (SDSC)

Catalogue2024-2025

Description

Cet enseignement porte sur la méthodologie et les méthodes d’apprentissage en science des données. Il est divisée en quatre modules :

  • Introduction à la science des données
  • Apprentissage supervisé : concepts, méthodes et applications
  • Apprentissage non-supervisé : concepts, méthodes et applications
  • Introduction à l’apprentissage profond.

Compétences requises

À l'entrée de cette UE, un étudiant devrait savoir :

  • Écrire des programmes simples en Python

Compétences visées

À l'issue de cet enseignement un étudiant saura :

  • Mettre en forme les données en vue de les utiliser sur une tâche d’apprentissage
  • Expliquer les fondements de l’apprentissage des principales méthodes supervisées et non-supervisées, dont les réseaux de neurones
  • Identifier et choisir parmi ces méthodes les plus pertinentes à utiliser en fonction de la tâche d’apprentissage visée et de la nature des données à disposition
  • Mettre en œuvre et utiliser ces méthodes
  • Evaluer un résultat d’apprentissage avec les bons outils en fonction de l’objectif visé
  • Mettre en place un pipeline d’entraînement afin de comparer et sélectionner un ensemble de méthodes avec différents hyperparamètres.

Disciplines

  • Informatique

Syllabus

Les principaux thèmes étudiés sont :

  • Concepts et définition de la science des données
  • Les différents métiers : Scientifique des données (cœur de l’IA), Ingénieur des données (Intégration de l’IA dans des processus métiers), Utilisateur (Processus métiers ou usage personnel)
  • Défis et enjeux méthodologiques, éthiques, sociétaux ...
  • La préparation des données : formatage des données, normalisation, split des jeux de données et validation croisée, …
  • Les principales méthodes d’évaluation supervisées (F1-score, IoU, AUC, matrice de confusion, ...) et non-supervisée (ARI, NMI, score de silhouette, …) et de comparaison (ranking, p-value, graphique de win-loss, ...)
  • Stratégie d’entrainement : pipeline d’entrainement et random ou grid seach
  • Le clustering : un problème mal défini et mal posé
  • Principales méthodes supervisées : arbres de décision, modèles bayésien, apprentissage à base d'instances, SVM, apprentissage d'ensemble de règles
  • Principales méthodes non-supervisées : partitionnement, mélange de lois, hiérarchiques, formation de concepts
  • Recherche de motifs fréquents
  • Réseaux de neurones artificiels : rappels et approfondissements
  • Vers l’apprentissage profond : intérêt des réseaux de neurones convolutifs
  • Optimisation de l’apprentissage des réseaux de neurones
  • Différents types d'apprentissage : apprentissage par renforcement et apprentissage adversarial

Bibliographie

  • Russell, S. J., & Norvig, P. (2016). Artificial intelligence: a modern approach. Pearson.
  • Barra, V., Cornuéjols, A., & Miclet, L. (2021). Apprentissage artificiel: Concepts et algorithmes-De Baye et Hume au Deep learning. Editions Eyrolles.
  • Beyerer, J., Hagmanns, R., & Stadler, D. (2024). Pattern recognition: introduction, features, classifiers and principles. Walter de Gruyter GmbH & Co KG.
  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.

Contacts

Responsable(s) de l'enseignement