Good
Fabien HLa data Guide de survie dans le monde de la donnée (2e édition)
- Niveau Initié à Confirmé
- Nombre de pages 510 pages
- Parution juillet 2024
- Niveau Initié à Confirmé
- Parution juillet 2024
Le lecteur commence avec une clarification indispensable des différents concepts qui gravitent autour de la donnée. Cette entrée en matière permet de démontrer que la donnée est une notion plus complexe qu’on ne le pense. Le livre aborde ensuite le stockage des données ce qui amène naturellement à la notion d’intégration de ces données et à ses impacts sur le Système d’Information.
La donnée étant mouvante, l’auteur expose ensuite les moyens à mettre en place pour une gouvernance de données efficace mais aussi pour mieux gérer son cycle de vie de manière globale. Cela permet au lecteur de mieux comprendre comment définir un cadre qui sera contrôlé et maîtrisé et d’expliquer en quoi les entreprises qui mettent en œuvre le Data Fabric ou le Data Mesh sont à même de proposer des services de données pertinents. Le livre détaille ensuite les méthodes d’analyse et de visualisation de données qui permettent de déceler des problèmes de qualité de données nécessitant ensuite de les nettoyer, les transformer et les valoriser en information de confiance.
Le lecteur sera finalement invité à mettre un pied dans le monde de l’IA et de l'IA générative sur laquelle cette deuxième édition met un coup de projecteur. Les principes et grandes notions autour du Machine Learning et du Deep Learning sont expliqués avec simplicité afin que le lecteur puisse mieux comprendre comment les algorithmes fonctionnent grâce aux données. Pour terminer, l’auteur explique comment les grandes architectures de données (Data warehouse, Data Lake, Modern Data Stack, Data Hub et EDI) fonctionnent en détaillant leurs principes et leurs différences.
Introduction
- Il était une fois la data
- Pourquoi ce livre ?
- Pourquoi une seconde édition ?
- À qui s’adresse ce livre ?
La donnée sous toutes ses facettes
- Introduction
- Qu’est-ce qu’une donnée ?
- Propriétés physiques
- 1. Le type
- a. Bits et octets
- b. Les nombres entiers
- c. Les nombres décimaux
- d. Les textes
- e. Les dates
- f. Les images
- g. La vidéo
- h. Le son
- 1. Le type
- 2. Le domaine
- 3. La variabilité
- a. Variable quantitative
- b. Variable catégorielle
- 1. Le format
- a. Les dates
- b. Les nombres
- c. Les valeurs monétaires
- d. Les expressions régulières
- 1. La granularité
- 2. La structure
- a. Les données structurées
- b. Les données semi-structurées
- c. Les données non structurées
- a. Éléments de mesure
- b. Les distributions
- 1. Le contexte
- 2. La sensibilité
- a. Les données personnelles
- b. Les autres données sensibles
- c. Mesure de la sensibilité
La persistance
- Introduction
- Fichiers
- 1. Le fichier CSV
- 2. Le fichier XML
- 3. Le fichier JSON
- 4. Le fichier parquet
- Les bases de données
- 1. Familles de bases de données
- 2. La modélisation
- a. La démarche de modélisation avecMerise
- b. Les types de modélisation
- 3. L’intégrité référentielle(CIT)
- 4. L’indexation des données
- a. Principe de fonctionnement
- b. Création d’index
- c. Types d’index
- 1. Le langage SQL
- 2. Le LMD en SQL
- a. La commande SELECT
- b. La clause UPDATE
- c. La clause INSERT
- d. La clause DELETE
- e. Opérations ensemblistes : les jointures
- f. Opérations ensemblistes : l’union
- a. Caractéristiques d’une transaction
- b. Critères A.C.I.D. d’une transaction
- 1. Les 3 V
- 2. Hadoop
- a. HDFS
- b. MapReduce
- c. YARN
- a. Hive
- b. HBase
- c. Sqoop
- d. Cassandra
- e. MongoDB
- a. Pig
- b. Spark
- 1. Introduction aux bases vectorielles
- 2. Caractéristiques clés des basesde données vectorielles
- 1. Le cache comme tampon
- 2. Les mécanismes ou techniques de cache
- a. La gestion dite Cache-Aside ou Lazy-Load
- b. Le mécanisme de Write-Through
- c. La technique de Write-Behind Cache (ou Write-BehindCaching)
- d. Le cache Read-Through
- e. L’algorithme Least Recently Used (LRU)
- f. Le cache Time-To-Live (TTL)
- g. Le cache à deux niveaux (Two-Level)
- 1. Bases de données dans le Cloud (Databaseas a Service : DBaaS)
- 2. Le MDS (Modern Data Stack)
L’intégration de données
- Introduction
- Propriétés d'une solution d'intégration de données
- 1. Architecture pour l’intégrationde données
- 2. Les grands modèles d’intégrationde données
- a. La diffusion de données
- b. La migration de données
- c. La synchronisation
- d. L’agrégation
- e. La corrélation
- 3. Modes de transmission
- 4. Type de connexion
- a. Accès synchrone
- b. Accès asynchrone
- 5. Modalité de traitement des données
- a. Traitement des données en lots ou Batch Processing
- b. Traitement des données en temps réel
- c. Traitement des données en flux ou StreamProcessing
- d. Récapitulatif
- 1. Les étapes d’une bonne intégrationde données
- 2. La montée en charge et la tolérancede panne
- 3. Connecteurs
- a. Introduction
- b. ODBC
- c. JDBC
- 1. Les ETL
- a. Les connecteurs
- b. Les flux ETL (mappings)
- c. Les caractéristiques
- 1. Qu’est-ce qu’un pipeline de données ?
- 2. Le marché des solutions de pipeline de données
- 1. Le bus de message
- 2. Le mode point à point
- 3. Le mode publication-souscription
- 4. À retenir
- 1. Une activité annexe mais clé
- 2. Apache Airflow
Analyser et fiabiliser les données
- Introduction
- 1. Objectif
- 2. Explorer avant d’analyser
- 3. Comment procéder ?
- La préparation de données
- Analyse technique
- 1. Analyses basiques
- 2. Corrélation entre colonnes
- 3. Détection de liens entre tables
- Le Data Mining pour aller plus loin dans l'analyse
- 1. Qu’est-ce que le Data Mining ?
- 2. Les techniques utilisées dans le Data Mining
- Analyse fonctionnelle et visualisation de données
- 1. Visualiser pour mieux analyser !
- 2. Les principes de la Gestalt
- 3. Les primitives graphiques
- 4. Les représentations graphiques
- a. Le texte simple
- b. Les tableaux
- c. Le nuage de points
- d. Les courbes
- e. Les graphes de surface
- f. Les diagrammes à barres
- g. Les histogrammes
- h. Les cartes de chaleur
- i. Les boîtes à moustaches
- j. Les cartes
- k. Les autres visualisations
- 5. Utiliser la DataViz pour analyser les données
- a. La proximité améliore l’associationvisuelle
- b. Réduire le jeu de données au nécessaire
- c. Trier les données
- d. Regrouper les données
- e. Bannir les surcharges
- f. Utiliser sciemment les couleurs
- g. Autres astuces visuelles
- 6. DataViz et créativité
- 1. L’analyse de données de cohorte
- 2. L’analyse inférentielle
- 3. L’analyse prédictive
- 4. L’analyse causale
- 1. Objectifs de la qualité de données
- 2. Les critères de qualité de données
- 3. Comment faire de la qualité de données ?
- 4. Indicateurs et règles
- 5. Les règles
- a. Les formules
- b. Les règles de contrôle et calculsensemblistes
- c. Les règles de standardisation
- d. Le parsing
- a. Principes
- b. Détection de lignes en double
- c. Principe de dédoublonnage par Rapprochement-Consolidation
- d. Première étape : lepartitionnement (découpage en groupes)
- e. Deuxième étape : lerapprochement
- f. Troisième étape : repartitionnementet association
- g. Quatrième étape : consolidationdes données (Golden Record)
Gérer le cycle de vie de la donnée
- Introduction
- Les outils et notions fondamentales
- 1. Les métadonnées
- a. Les enjeux autour de la gestion des métadonnées
- b. Les métadonnées techniques
- c. Les métadonnées métier- Le glossaire métier
- 1. Les métadonnées
- 2. Le lignage des données
- a. Introduction
- b. Les couches de lignage
- c. Mode de fonctionnement
- d. L’analyse d’impact
- e. La navigation
- 3. Le catalogue de métadonnées
- 1. Anonymisation vs Pseudonymisation
- 2. Chiffrement de l’information
- a. Le chiffrement symétrique
- b. Le chiffrement asymétrique
- c. Caractéristiques de chiffrement
- 1. Qu’est-ce que la gouvernance de données?
- 2. L’équipe de gouvernance de données
- 1. Présentation
- 2. Les fondements de l’observabilité
- 3. Le marché de l’observabilité dedonnées
- 1. Introduction
- 2. DataOps et agilité
- 3. Le DataOps aujourd’hui
- 1. L’Open Data
- 2. Data as a Service (DaaS)
- 3. La fabrique de données (Data Fabric)
- 4. Le maillage de données (Data Mesh)
Valoriser ses données avec l’IA
- Introduction
- L’utilisation de l’IA
- 1. Prendre des décisions
- 2. Vision par ordinateur
- 3. Traitement du langage naturel (NLP)
- Le Machine Learning
- 1. Principe de l’apprentissage
- 2. Approche déterministe vs approche probabiliste
- 3. Les types d’apprentissage
- 4. Le projet de Machine Learning
- a. Première étape : définitiondes objectifs
- b. Étape intermédiaire : accèset analyse des données
- c. Deuxième étape : préparationdes données
- d. Troisième étape : découpagedu jeu de données
- e. Quatrième étape : entraînement
- f. Cinquième étape : évaluationet scoring
- g. Sixième étape : déploiementet industrialisation
- 5. Biais et variance
- a. Le biais
- b. La variance
- c. Biais et/ou variance ?
- 1. Qu’est-ce qu’un réseaude neurones ?
- 2. Fonctionnement d’un neurone
- 3. Les architectures de réseaux de neurones
- a. L’entraînement des réseauxde neurones
- b. Les réseaux de neurones artificiels (ANN)
- c. Les réseaux de neurones convolutifs (CNN)
- d. Les réseaux de neurones récurrents(RNN)
- e. Les réseaux de type AutoEncoder et VAEs
- f. Les réseaux GAN
- g. Le Transformer
- a. Le Transfer Learning
- b. Le fine-tuning
- 1. Pourquoi et comment expliquer un modèle ?
- 2. Les algorithmes interprétables
- 3. LIME
- 4. SHAP
- 5. PDP
Les grandes solutions de gestion de données
- Introduction
- Le Data Warehouse
- 1. Data Warehouse et Infocentre
- 2. Principes généraux de chargementd’un Data Warehouse
- 3. La modélisation
- 4. Les Datamarts
- 5. Les cubes/OLAP
- Le Data Lake
- Le Lake House
- Le référentiel de données (MDM - Master Data Management)
- 1. Introduction
- 2. Les architectures de MDM
- a. Les solutions analytiques ou de consolidation
- b. Les architectures de type Registre
- c. Les solutions de type coexistence
- d. Les solutions de type centralisé
- 3. Les grandes fonctions des MDM multidomaines
- a. La modélisation
- b. L’alimentation
- c. La communication avec les systèmes externes
- d. La gouvernance
- e. La traçabilité des donnéesd’origine
- f. L’historisation des données
- 1. Les types de Data Hub
- 2. Les types de stockage
- 3. Centralisation et modélisation des données
- 1. Principes de fonctionnement de l’EDI
- 2. EDI et organisations
- 3. Avantages et inconvénients
- 4. Services EDI
Glossaire
- Introduction