Entreposage et protection des données massives distribuées

Entreposage et protection des données massives distribuées
Master InformatiqueParcours Sciences des données et systèmes complexes (SDSC)

Catalogue2024-2025

Description

Cet enseignement présente les principes et techniques liés d’une part à l’exploitation des données massives à des fins décisionnelles, avec un accent mis sur les entrepôts de données, et d’autre part à la conception d’applications distribuées complexes sécurisées

Compétences requises

À l'entrée de cette UE, un étudiant devrait savoir :

  • Modéliser une base de données relationnelles,
  • Écrire des requêtes SQL avec jointures, agrégations et regroupements.
  • Mettre en œuvre les algorithmes d'intelligence artificielle
  • Mettre en œuvre des protocoles cryptographiques
  • Sécuriser un système informatique

Compétences visées

À l'issue de cette UE un étudiant saura :

  • Le vocabulaire et les concepts liés aux entrepôts de données,
  • La différence entre les types de stockage de données,
  • Les principes liés à la gestion des données (cycle de vie, données ouvertes),
  • Réaliser une intégration de données avec un outil d’ETL (Extract-Load-Transform),
  • Modéliser un entrepôt de données,
  • Interroger un entrepôt de données pour permettre une analyse multidimensionnelle des données.
  • Définir et mettre en œuvre une chaîne de traitement de la donnée pour la cybersécurité
  • Choisir des algorithmes de classification et de détection d’anomalies
  • Mesurer les performances des apprentissages
  • Protéger les chaînes de traitement de données d’actions malveillantes
  • Connaître les risques de vol et d’abus de données

Disciplines

  • Informatique

Syllabus

Partie entreposage et traitement des données massives

Les principaux concepts et outils liés à la gestion de données massives et à leur exploitation à des fins décisionnelles seront vus :

  • Vue d’ensemble du décisionnel,
  • Vocabulaire et concepts liés aux entrepôts de données (magasin de données, OLAP, cube OLAP),
  • Les principes liés à la gestion des données (cycle de vie, données ouvertes),
  • Aperçu des autres types de stockage des données massives (base de données, entrepôt de données, data lake, data mesh, data lakehouse),
  • Modélisation conceptuelle des entrepôts (dimension, schéma en étoile, flocon, constellation),
  • Modélisation logique des entrepôts (ROLAP, MOLAP, HOLAP),
  • Fonctionnalités OLAP de SQL,
  • Intégration de données (ETL).

Partie protection des données massives

Les concepts et outils liés à la détection d’attaque et à la protection des données sont :

  • Application de l’analyse de données aux métiers de la cybersécurité
  • Étude d’un cas d’usage d’identification de fraude : démarche, préparation des données, choix et application des algorithmes pour l’analyse de données exploratoire, la visualisation et le traitement des données
  • Algorithmes de classification, à l’exemple de XGBoost
  • Algorithmes de prédiction pour la détection d’anomalies : ARIMA, LSTM
  • Métriques d’évaluation de performance pour l’apprentissage machine : précision, rappel, AUROC, AUPRC ; les profils de perte pour l’apprentissage en sous-apprentissage, sur-apprentissage, apprentissage adapté
  • La détection de nouveautés et d’anomalies par classification en 2 classes : co-variance robuste, SVM 1-classe, Isolation Forest, Local Outlier Factor
  • Mécanismes de l’apprentissage machine adversariel
  • Mise en œuvre opérationnelle du machine learning pour la cybersécurité dans les Security Operating Centers
  • Risques majeurs pour les systèmes informatiques
  • Les vols de données

Bibliographie

  • Ralph Kimball et Margy Ross, Entrepôts de données, guide pratique de modélisation dimensionnelle, 2ième édition, 2002
  • Chio, C., & Freeman, D. (2018). Machine learning and security: Protecting systems with data and algorithms. " O'Reilly Media, Inc.".
  • Melis, M., Demontis, A., Pintor, M., Sotgiu, A., & Biggio, B. (2019). secml: A python library for secure and explainable machine learning.
  • Caviglione, L., Wendzel, S., & Mazurczyk, W. (2017). The future of digital forensics: Challenges and the road ahead. IEEE Security & Privacy, 15(6), 12-17.

Contacts

Responsable(s) de l'enseignement