Entreposage et protection des données massives distribuées

Entreposage et protection des données massives distribuées
Master InformatiqueParcours Sciences des données et systèmes complexes (SDSC)

Description

Cet enseignement présente les principes et techniques liés d’une part à l’exploitation des données massives à des fins décisionnelles, avec un accent mis sur les entrepôts de données, et d’autre part à la conception d’applications distribuées complexes sécurisées

Compétences requises

À l'entrée de cette UE, un étudiant devrait savoir :

  • Modéliser une base de données relationnelles,
  • Écrire des requêtes SQL avec jointures, agrégations et regroupements.
  • Mettre en œuvre les algorithmes d'intelligence artificielle
  • Mettre en œuvre des protocoles cryptographiques
  • Sécuriser un système informatique

Compétences visées

À l'issue de cette UE un étudiant saura :

  • Le vocabulaire et les concepts liés aux entrepôts de données,
  • La différence entre les types de stockage de données,
  • Les principes liés à la gestion des données (cycle de vie, données ouvertes),
  • Réaliser une intégration de données avec un outil d’ETL (Extract-Load-Transform),
  • Modéliser un entrepôt de données,
  • Interroger un entrepôt de données pour permettre une analyse multidimensionnelle des données.
  • Définir et mettre en œuvre une chaîne de traitement de la donnée pour la cybersécurité
  • Choisir des algorithmes de classification et de détection d’anomalies
  • Mesurer les performances des apprentissages
  • Protéger les chaînes de traitement de données d’actions malveillantes
  • Connaître les risques de vol et d’abus de données

Disciplines

  • Informatique

Syllabus

Partie entreposage et traitement des données massives

Les principaux concepts et outils liés à la gestion de données massives et à leur exploitation à des fins décisionnelles seront vus :

  • Vue d’ensemble du décisionnel,
  • Vocabulaire et concepts liés aux entrepôts de données (magasin de données, OLAP, cube OLAP),
  • Les principes liés à la gestion des données (cycle de vie, données ouvertes),
  • Aperçu des autres types de stockage des données massives (base de données, entrepôt de données, data lake, data mesh, data lakehouse),
  • Modélisation conceptuelle des entrepôts (dimension, schéma en étoile, flocon, constellation),
  • Modélisation logique des entrepôts (ROLAP, MOLAP, HOLAP),
  • Fonctionnalités OLAP de SQL,
  • Intégration de données (ETL).

Partie protection des données massives

Les concepts et outils liés à la détection d’attaque et à la protection des données sont :

  • Application de l’analyse de données aux métiers de la cybersécurité
  • Étude d’un cas d’usage d’identification de fraude : démarche, préparation des données, choix et application des algorithmes pour l’analyse de données exploratoire, la visualisation et le traitement des données
  • Algorithmes de classification, à l’exemple de XGBoost
  • Algorithmes de prédiction pour la détection d’anomalies : ARIMA, LSTM
  • Métriques d’évaluation de performance pour l’apprentissage machine : précision, rappel, AUROC, AUPRC ; les profils de perte pour l’apprentissage en sous-apprentissage, sur-apprentissage, apprentissage adapté
  • La détection de nouveautés et d’anomalies par classification en 2 classes : co-variance robuste, SVM 1-classe, Isolation Forest, Local Outlier Factor
  • Mécanismes de l’apprentissage machine adversariel
  • Mise en œuvre opérationnelle du machine learning pour la cybersécurité dans les Security Operating Centers
  • Risques majeurs pour les systèmes informatiques
  • Les vols de données

Bibliographie

  • Ralph Kimball et Margy Ross, Entrepôts de données, guide pratique de modélisation dimensionnelle, 2ième édition, 2002
  • Chio, C., & Freeman, D. (2018). Machine learning and security: Protecting systems with data and algorithms. " O'Reilly Media, Inc.".
  • Melis, M., Demontis, A., Pintor, M., Sotgiu, A., & Biggio, B. (2019). secml: A python library for secure and explainable machine learning.
  • Caviglione, L., Wendzel, S., & Mazurczyk, W. (2017). The future of digital forensics: Challenges and the road ahead. IEEE Security & Privacy, 15(6), 12-17.

Contacts

Responsable(s) de l'enseignement