Entreposage et protection des données massives distribuées
Master InformatiqueParcours Sciences des données et systèmes complexes (SDSC)
Description
Cet enseignement présente les principes et techniques liés d’une part à l’exploitation des données massives à des fins décisionnelles, avec un accent mis sur les entrepôts de données, et d’autre part à la conception d’applications distribuées complexes sécurisées
Compétences requises
À l'entrée de cette UE, un étudiant devrait savoir :
- Modéliser une base de données relationnelles,
- Écrire des requêtes SQL avec jointures, agrégations et regroupements.
- Mettre en œuvre les algorithmes d'intelligence artificielle
- Mettre en œuvre des protocoles cryptographiques
- Sécuriser un système informatique
Compétences visées
À l'issue de cette UE un étudiant saura :
- Le vocabulaire et les concepts liés aux entrepôts de données,
- La différence entre les types de stockage de données,
- Les principes liés à la gestion des données (cycle de vie, données ouvertes),
- Réaliser une intégration de données avec un outil d’ETL (Extract-Load-Transform),
- Modéliser un entrepôt de données,
- Interroger un entrepôt de données pour permettre une analyse multidimensionnelle des données.
- Définir et mettre en œuvre une chaîne de traitement de la donnée pour la cybersécurité
- Choisir des algorithmes de classification et de détection d’anomalies
- Mesurer les performances des apprentissages
- Protéger les chaînes de traitement de données d’actions malveillantes
- Connaître les risques de vol et d’abus de données
Disciplines
- Informatique
Syllabus
Partie entreposage et traitement des données massives
Les principaux concepts et outils liés à la gestion de données massives et à leur exploitation à des fins décisionnelles seront vus :
- Vue d’ensemble du décisionnel,
- Vocabulaire et concepts liés aux entrepôts de données (magasin de données, OLAP, cube OLAP),
- Les principes liés à la gestion des données (cycle de vie, données ouvertes),
- Aperçu des autres types de stockage des données massives (base de données, entrepôt de données, data lake, data mesh, data lakehouse),
- Modélisation conceptuelle des entrepôts (dimension, schéma en étoile, flocon, constellation),
- Modélisation logique des entrepôts (ROLAP, MOLAP, HOLAP),
- Fonctionnalités OLAP de SQL,
- Intégration de données (ETL).
Partie protection des données massives
Les concepts et outils liés à la détection d’attaque et à la protection des données sont :
- Application de l’analyse de données aux métiers de la cybersécurité
- Étude d’un cas d’usage d’identification de fraude : démarche, préparation des données, choix et application des algorithmes pour l’analyse de données exploratoire, la visualisation et le traitement des données
- Algorithmes de classification, à l’exemple de XGBoost
- Algorithmes de prédiction pour la détection d’anomalies : ARIMA, LSTM
- Métriques d’évaluation de performance pour l’apprentissage machine : précision, rappel, AUROC, AUPRC ; les profils de perte pour l’apprentissage en sous-apprentissage, sur-apprentissage, apprentissage adapté
- La détection de nouveautés et d’anomalies par classification en 2 classes : co-variance robuste, SVM 1-classe, Isolation Forest, Local Outlier Factor
- Mécanismes de l’apprentissage machine adversariel
- Mise en œuvre opérationnelle du machine learning pour la cybersécurité dans les Security Operating Centers
- Risques majeurs pour les systèmes informatiques
- Les vols de données
Bibliographie
- Ralph Kimball et Margy Ross, Entrepôts de données, guide pratique de modélisation dimensionnelle, 2ième édition, 2002
- Chio, C., & Freeman, D. (2018). Machine learning and security: Protecting systems with data and algorithms. " O'Reilly Media, Inc.".
- Melis, M., Demontis, A., Pintor, M., Sotgiu, A., & Biggio, B. (2019). secml: A python library for secure and explainable machine learning.
- Caviglione, L., Wendzel, S., & Mazurczyk, W. (2017). The future of digital forensics: Challenges and the road ahead. IEEE Security & Privacy, 15(6), 12-17.