Véritable manuel pratique, ce livre s’adresse à toute personne amenée à travailler avec les données (chefs de projets, CDO, Architectes, Ingénieurs Data ou même Data Scientists) qui souhaite étendre ses connaissances autour de la gestion de données ou qui rencontre des besoins ponctuels sur des opérations à réaliser. L’objectif est de présenter tous les concepts et notions utiles dès lors que l’on est impliqué dans un projet de données. Chaque chapitre peut être lu indépendamment des autres et des exemples viennent étayer les propos de l’auteur.

Le lecteur commence avec une clarification indispensable des différents concepts qui gravitent autour de la donnée. Cette entrée en matière permet de démontrer que la donnée est une notion plus complexe qu’on ne le pense. Le livre aborde ensuite le stockage des données ce qui amène naturellement à la notion d’intégration de ces données et à ses impacts sur le Système d’Information.

La donnée étant mouvante, l’auteur expose ensuite les moyens à mettre en place pour une gouvernance de données efficace mais aussi pour mieux gérer son cycle de vie de manière globale. Cela permet au lecteur de mieux comprendre comment définir un cadre qui sera contrôlé et maîtrisé et d’expliquer en quoi les entreprises qui mettent en œuvre le Data Fabric ou le Data Mesh sont à même de proposer des services de données pertinents. Le livre détaille ensuite les méthodes d’analyse et de visualisation de données qui permettent de déceler des problèmes de qualité de données nécessitant ensuite de les nettoyer, les transformer et les valoriser en information de confiance.

Le lecteur sera finalement invité à mettre un pied dans le monde de l’IA et de l'IA générative sur laquelle cette deuxième édition met un coup de projecteur. Les principes et grandes notions autour du Machine Learning et du Deep Learning sont expliqués avec simplicité afin que le lecteur puisse mieux comprendre comment les algorithmes fonctionnent grâce aux données. Pour terminer, l’auteur explique comment les grandes architectures de données (Data warehouse, Data Lake, Modern Data Stack, Data Hub et EDI) fonctionnent en détaillant leurs principes et leurs différences.

Introduction

Il était une fois la data
Pourquoi ce livre ?
Pourquoi une seconde édition ?
À qui s’adresse ce livre ?

La donnée sous toutes ses facettes

Introduction
Qu’est-ce qu’une donnée ?
Propriétés physiques
1. 1. Le type
  1. a. Bits et octets
  2. b. Les nombres entiers
  3. c. Les nombres décimaux
  4. d. Les textes
  5. e. Les dates
  6. f. Les images
  7. g. La vidéo
  8. h. Le son
2. 2. Le domaine
3. 3. La variabilité
  1. a. Variable quantitative
  2. b. Variable catégorielle
Propriétés de présentation
1. 1. Le format
  1. a. Les dates
  2. b. Les nombres
  3. c. Les valeurs monétaires
  4. d. Les expressions régulières
2. 2. L’internationalisation
Propriétés structurelles
1. 1. La granularité
2. 2. La structure
  1. a. Les données structurées
  2. b. Les données semi-structurées
  3. c. Les données non structurées
3. 3. Les mesures et la dispersion
  1. a. Éléments de mesure
  2. b. Les distributions
Propriétés fonctionnelles
1. 1. Le contexte
2. 2. La sensibilité
  1. a. Les données personnelles
  2. b. Les autres données sensibles
  3. c. Mesure de la sensibilité
3. 3. Appartenance
4. 4. Traçabilité
Vocabulaire des données
Bilan

La persistance

Introduction
Fichiers
1. 1. Le fichier CSV
2. 2. Le fichier XML
3. 3. Le fichier JSON
4. 4. Le fichier parquet
Les bases de données
1. 1. Familles de bases de données
2. 2. La modélisation
  1. a. La démarche de modélisation avecMerise
  2. b. Les types de modélisation
3. 3. L’intégrité référentielle(CIT)
4. 4. L’indexation des données
  1. a. Principe de fonctionnement
  2. b. Création d’index
  3. c. Types d’index
Les bases de données relationnelles (SGBD-R)
1. 1. Le langage SQL
2. 2. Le LMD en SQL
  1. a. La commande SELECT
  2. b. La clause UPDATE
  3. c. La clause INSERT
  4. d. La clause DELETE
  5. e. Opérations ensemblistes : les jointures
  6. f. Opérations ensemblistes : l’union
3. 3. Les transactions
  1. a. Caractéristiques d’une transaction
  2. b. Critères A.C.I.D. d’une transaction
Les systèmes OLTP et OLAP
Système distribué et théorème CAP
Les bases de données NoSQL
Le Big Data
1. 1. Les 3 V
2. 2. Hadoop
  1. a. HDFS
  2. b. MapReduce
  3. c. YARN
3. 3. La gestion des données avec Hadoop
  1. a. Hive
  2. b. HBase
  3. c. Sqoop
  4. d. Cassandra
  5. e. MongoDB
4. 4. Les outils de programmation
  1. a. Pig
  2. b. Spark
Les bases de données vectorielles
1. 1. Introduction aux bases vectorielles
2. 2. Caractéristiques clés des basesde données vectorielles
La gestion de cache
1. 1. Le cache comme tampon
2. 2. Les mécanismes ou techniques de cache
  1. a. La gestion dite Cache-Aside ou Lazy-Load
  2. b. Le mécanisme de Write-Through
  3. c. La technique de Write-Behind Cache (ou Write-BehindCaching)
  4. d. Le cache Read-Through
  5. e. L’algorithme Least Recently Used (LRU)
  6. f. Le cache Time-To-Live (TTL)
  7. g. Le cache à deux niveaux (Two-Level)
Les tendances actuelles
1. 1. Bases de données dans le Cloud (Databaseas a Service : DBaaS)
2. 2. Le MDS (Modern Data Stack)
Bilan

L’intégration de données

Introduction
Propriétés d'une solution d'intégration de données
1. 1. Architecture pour l’intégrationde données
2. 2. Les grands modèles d’intégrationde données
  1. a. La diffusion de données
  2. b. La migration de données
  3. c. La synchronisation
  4. d. L’agrégation
  5. e. La corrélation
3. 3. Modes de transmission
4. 4. Type de connexion
  1. a. Accès synchrone
  2. b. Accès asynchrone
5. 5. Modalité de traitement des données
  1. a. Traitement des données en lots ou Batch Processing
  2. b. Traitement des données en temps réel
  3. c. Traitement des données en flux ou StreamProcessing
  4. d. Récapitulatif
Principes de fonctionnement
1. 1. Les étapes d’une bonne intégrationde données
2. 2. La montée en charge et la tolérancede panne
3. 3. Connecteurs
  1. a. Introduction
  2. b. ODBC
  3. c. JDBC
Les solutions d’intégration de données
1. 1. Les ETL
  1. a. Les connecteurs
  2. b. Les flux ETL (mappings)
  3. c. Les caractéristiques
2. 2. Les ELT
3. 3. La virtualisation de données
Le pipeline de données
1. 1. Qu’est-ce qu’un pipeline de données ?
2. 2. Le marché des solutions de pipeline de données
Les solutions orientées bus
1. 1. Le bus de message
2. 2. Le mode point à point
3. 3. Le mode publication-souscription
4. 4. À retenir
L'orchestration des flux de données
1. 1. Une activité annexe mais clé
2. 2. Apache Airflow
Bilan

Analyser et fiabiliser les données

Introduction
1. 1. Objectif
2. 2. Explorer avant d’analyser
3. 3. Comment procéder ?
La préparation de données
Analyse technique
1. 1. Analyses basiques
2. 2. Corrélation entre colonnes
3. 3. Détection de liens entre tables
Le Data Mining pour aller plus loin dans l'analyse
1. 1. Qu’est-ce que le Data Mining ?
2. 2. Les techniques utilisées dans le Data Mining
Analyse fonctionnelle et visualisation de données
1. 1. Visualiser pour mieux analyser !
2. 2. Les principes de la Gestalt
3. 3. Les primitives graphiques
4. 4. Les représentations graphiques
  1. a. Le texte simple
  2. b. Les tableaux
  3. c. Le nuage de points
  4. d. Les courbes
  5. e. Les graphes de surface
  6. f. Les diagrammes à barres
  7. g. Les histogrammes
  8. h. Les cartes de chaleur
  9. i. Les boîtes à moustaches
  10. j. Les cartes
  11. k. Les autres visualisations
5. 5. Utiliser la DataViz pour analyser les données
  1. a. La proximité améliore l’associationvisuelle
  2. b. Réduire le jeu de données au nécessaire
  3. c. Trier les données
  4. d. Regrouper les données
  5. e. Bannir les surcharges
  6. f. Utiliser sciemment les couleurs
  7. g. Autres astuces visuelles
6. 6. DataViz et créativité
Quelques exemples d’analyse
1. 1. L’analyse de données de cohorte
2. 2. L’analyse inférentielle
3. 3. L’analyse prédictive
4. 4. L’analyse causale
Qualité de la donnée
1. 1. Objectifs de la qualité de données
2. 2. Les critères de qualité de données
3. 3. Comment faire de la qualité de données ?
4. 4. Indicateurs et règles
5. 5. Les règles
  1. a. Les formules
  2. b. Les règles de contrôle et calculsensemblistes
  3. c. Les règles de standardisation
  4. d. Le parsing
6. 6. Le dédoublonnage
  1. a. Principes
  2. b. Détection de lignes en double
  3. c. Principe de dédoublonnage par Rapprochement-Consolidation
  4. d. Première étape : lepartitionnement (découpage en groupes)
  5. e. Deuxième étape : lerapprochement
  6. f. Troisième étape : repartitionnementet association
  7. g. Quatrième étape : consolidationdes données (Golden Record)
Bilan

Gérer le cycle de vie de la donnée

Introduction
Les outils et notions fondamentales
1. 1. Les métadonnées
  1. a. Les enjeux autour de la gestion des métadonnées
  2. b. Les métadonnées techniques
  3. c. Les métadonnées métier- Le glossaire métier
2. 2. Le lignage des données
  1. a. Introduction
  2. b. Les couches de lignage
  3. c. Mode de fonctionnement
  4. d. L’analyse d’impact
  5. e. La navigation
3. 3. Le catalogue de métadonnées
La sécurité des données
1. 1. Anonymisation vs Pseudonymisation
2. 2. Chiffrement de l’information
  1. a. Le chiffrement symétrique
  2. b. Le chiffrement asymétrique
  3. c. Caractéristiques de chiffrement
3. 3. Masquage permanent des données
4. 4. Masquage dynamique des données
5. 5. Techniques et méthodes de masquage
La gouvernance des données
1. 1. Qu’est-ce que la gouvernance de données?
2. 2. L’équipe de gouvernance de données
L’observabilité de données
1. 1. Présentation
2. 2. Les fondements de l’observabilité
3. 3. Le marché de l’observabilité dedonnées
Le DataOps
1. 1. Introduction
2. 2. DataOps et agilité
3. 3. Le DataOps aujourd’hui
La donnée en tant que « produit »
1. 1. L’Open Data
2. 2. Data as a Service (DaaS)
3. 3. La fabrique de données (Data Fabric)
4. 4. Le maillage de données (Data Mesh)
Bilan

Valoriser ses données avec l’IA

Introduction
L’utilisation de l’IA
1. 1. Prendre des décisions
2. 2. Vision par ordinateur
3. 3. Traitement du langage naturel (NLP)
Le Machine Learning
1. 1. Principe de l’apprentissage
2. 2. Approche déterministe vs approche probabiliste
3. 3. Les types d’apprentissage
4. 4. Le projet de Machine Learning
  1. a. Première étape : définitiondes objectifs
  2. b. Étape intermédiaire : accèset analyse des données
  3. c. Deuxième étape : préparationdes données
  4. d. Troisième étape : découpagedu jeu de données
  5. e. Quatrième étape : entraînement
  6. f. Cinquième étape : évaluationet scoring
  7. g. Sixième étape : déploiementet industrialisation
5. 5. Biais et variance
  1. a. Le biais
  2. b. La variance
  3. c. Biais et/ou variance ?
Les réseaux de neurones
1. 1. Qu’est-ce qu’un réseaude neurones ?
2. 2. Fonctionnement d’un neurone
3. 3. Les architectures de réseaux de neurones
  1. a. L’entraînement des réseauxde neurones
  2. b. Les réseaux de neurones artificiels (ANN)
  3. c. Les réseaux de neurones convolutifs (CNN)
  4. d. Les réseaux de neurones récurrents(RNN)
  5. e. Les réseaux de type AutoEncoder et VAEs
  6. f. Les réseaux GAN
  7. g. Le Transformer
4. 4. Réutiliser un entraînement
  1. a. Le Transfer Learning
  2. b. Le fine-tuning
5. 5. Les LLM (Large Language Models)
L’eXplainable AI
1. 1. Pourquoi et comment expliquer un modèle ?
2. 2. Les algorithmes interprétables
3. 3. LIME
4. 4. SHAP
5. 5. PDP
L'IA générative
Bilan

Les grandes solutions de gestion de données

Introduction
Le Data Warehouse
1. 1. Data Warehouse et Infocentre
2. 2. Principes généraux de chargementd’un Data Warehouse
3. 3. La modélisation
4. 4. Les Datamarts
5. 5. Les cubes/OLAP
Le Data Lake
Le Lake House
Le référentiel de données (MDM - Master Data Management)
1. 1. Introduction
2. 2. Les architectures de MDM
  1. a. Les solutions analytiques ou de consolidation
  2. b. Les architectures de type Registre
  3. c. Les solutions de type coexistence
  4. d. Les solutions de type centralisé
3. 3. Les grandes fonctions des MDM multidomaines
  1. a. La modélisation
  2. b. L’alimentation
  3. c. La communication avec les systèmes externes
  4. d. La gouvernance
  5. e. La traçabilité des donnéesd’origine
  6. f. L’historisation des données
Le Data Hub
1. 1. Les types de Data Hub
2. 2. Les types de stockage
3. 3. Centralisation et modélisation des données
L’EDI
1. 1. Principes de fonctionnement de l’EDI
2. 2. EDI et organisations
3. 3. Avantages et inconvénients
4. 4. Services EDI
Guide comparatif des solutions de gestion de données
Bilan

Glossaire

Introduction

21/09/2024Version papier

Good

Fabien H

20/09/2024Version en ligne

Excellent ouvrage !

David L

Benoit CAYLA

Ingénieur en informatique avec plus de 20 ans d’expérience dans la gestion et l’utilisation de données, Benoit CAYLA a mis son expertise au profit de projets très variés tels que l’intégration, la gouvernance, l’analyse, l’IA, la mise en place de MDM ou de solution PIM pour le compte de diverses entreprises spécialisées dans la donnée (dont IBM, Informatica et Tableau). Ces riches expériences l’ont naturellement conduit à intervenir dans des projets de plus grande envergure autour de la gestion et de la valorisation des données, et ce principalement dans des secteurs d’activités tels que l’industrie, la grande distribution, l’assurance et la finance. Également, passionné d’IA (Machine Learning, NLP et Deep Learning), l’auteur a rejoint Blue Prism en 2019 et travaille aujourd’hui en tant qu’expert data/IA et processus. Son sens pédagogique ainsi que son expertise l’ont aussi amené à animer un blog en français (datacorner.fr) ayant pour but de montrer comment comprendre, analyser et utiliser ses données le plus simplement possible.

La data Guide de survie dans le monde de la donnée (2e édition)

Informations

Caractéristiques

Informations

Caractéristiques

Benoit CAYLA

Nos nouveautés