Véritable manuel pratique, ce livre s’adresse à toute personne amenée à travailler avec les données (chefs de projets, CDO, Architectes, Ingénieurs Data ou même Data Scientists) qui souhaite étendre ses connaissances autour de la gestion de données ou qui rencontre des besoins ponctuels sur des opérations à réaliser. L’objectif est de présenter tous les concepts et notions utiles dès lors que l’on est impliqué dans un projet intégrant des données. Chaque chapitre peut être lu indépendamment des autres et des exemples viennent étayer les propos de l’auteur.

Le lecteur commence avec une clarification indispensable des différents concepts qui gravitent autour de la donnée. Cette entrée en matière permet de démontrer que la donnée est une notion plus complexe qu’on ne le pense. Le livre aborde ensuite le stockage des données ce qui amène naturellement à la notion d’intégration de ces données et à ses impacts sur le Système d’Information.

La donnée étant mouvante, l’auteur expose ensuite les moyens à mettre en place pour une gouvernance de données efficace. Cela permet au lecteur de mieux comprendre comment définir un cadre qui sera contrôlé et maîtrisé et d’expliquer en quoi les entreprises qui mettent en œuvre le Data Fabric ou le Data Mesh sont à même de proposer des services de données pertinents. Le livre détaille ensuite les méthodes d’analyse et de visualisation de données qui permettent de déceler des problèmes de qualité de données nécessitant ensuite de les nettoyer, les transformer et les valoriser en information de confiance.

Le lecteur sera finalement invité à mettre un pied dans le monde de l’IA. Les principes et grandes notions autour du Machine Learning et du Deep Learning sont expliqués avec simplicité afin que le lecteur puisse mieux comprendre comment les algorithmes fonctionnent grâce aux données. Pour terminer, l’auteur explique comment les grandes architectures de données (Data warehouse, Data Lake, MDM, Data Hub et EDI) fonctionnent en détaillant leurs principes et leurs différences.

Quizinclus dans
la version en ligne !

Testez vos connaissances à l'issue de chaque chapitre
Validez vos acquis

Introduction

1. Il était une fois la donnée
2. Pourquoi ce livre ?
3. À qui s’adresse ce livre ?

La donnée sous toutes ses facettes

1. Introduction
2. Qu’est-ce qu’une donnée ?
3. Propriétés physiques
1. 3.1 Le type
  1. 3.1.1 Bits et octets
  2. 3.1.2 Les nombres entiers
  3. 3.1.3 Les nombres décimaux
  4. 3.1.4 Les textes
  5. 3.1.5 Les dates
  6. 3.1.6 Les images
  7. 3.1.7 La vidéo
  8. 3.1.8 Le son
2. 3.2 Le domaine
3. 3.3 La variabilité
  1. 3.3.1 Variable quantitative
  2. 3.3.2 Variable catégorielle
4. Propriétés d’exposition
1. 4.1 Le format
  1. 4.1.1 Date
  2. 4.1.2 Les nombres
  3. 4.1.3 Les formats monétaires
  4. 4.1.4 Les expressions régulières
2. 4.2 La localisation et l’internationalisation
5. Propriétés structurelles
1. 5.1 La granularité
2. 5.2 La structure
  1. 5.2.1 Les données structurées
  2. 5.2.2 Les données semi-structurées
  3. 5.2.3 Les données non structurées
3. 5.3 Les mesures et la dispersion
  1. 5.3.1 Éléments de mesure
  2. 5.3.2 Les distributions
6. Propriétés fonctionnelles
1. 6.1 Le contexte
2. 6.2 La sensibilité
  1. 6.2.1 Les données personnelles
  2. 6.2.2 Les autres données sensibles
  3. 6.2.3 Mesure de la sensibilité
7. Vocabulaire des données

La persistance

1. Introduction
2. Fichiers
1. 2.1 Le fichier CSV
2. 2.2 Le fichier XML
3. 2.3 Le fichier JSON
3. Les bases de données
1. 3.1 Familles de bases de données
2. 3.2 Modélisation
  1. 3.2.1 Démarche de modélisation
  2. 3.2.2 Les types de modélisation
3. 3.3 L’intégrité référentielle (CIT)
4. 3.4 L’indexation des données
  1. 3.4.1 Principe de fonctionnement
  2. 3.4.2 Création d’index
  3. 3.4.3 Les types d’index
4. Les bases de données relationnelles (SGBD-R)
1. 4.1 Le langage SQL
2. 4.2 Le LMD / SQL
  1. 4.2.1 La commande SELECT
  2. 4.2.2 La clause UPDATE
  3. 4.2.3 La clause INSERT
  4. 4.2.4 La clause DELETE
  5. 4.2.5 Opérations ensemblistes : les jointures
  6. 4.2.6 Opérations ensemblistes : l’union
3. 4.3 Les transactions
  1. 4.3.1 Caractéristiques d’une transaction
  2. 4.3.2 Critères A.C.I.D. d’une transaction
5. Les systèmes OLTP et OLAP
6. Système distribué et théorème CAP
7. Les bases NoSQL
8. Le Big Data
1. 8.1 Les 3 V
2. 8.2 Hadoop
  1. 8.2.1 HDFS
  2. 8.2.2 MapReduce
  3. 8.2.3 YARN
3. 8.3 La gestion des données avec Hadoop
  1. 8.3.1 Hive
  2. 8.3.2 HBase
  3. 8.3.3 Sqoop
  4. 8.3.4 Cassandra
  5. 8.3.5 MongoDB
4. 8.4 Les outils de programmation
  1. 8.4.1 Pig
  2. 8.4.2 Spark
9. Les tendances actuelles
1. 9.1 Bases de données dans le Cloud (Database as a Service : DBaaS)
2. 9.2 Le MDS (Modern Data Stack)

L’intégration de données

1. Introduction
2. Caractéristiques
1. 2.1 Architecture pour l’intégration de données
2. 2.2 Les grands modèles d’intégration de données
  1. 2.2.1 La diffusion de données
  2. 2.2.2 La migration de données
  3. 2.2.3 La synchronisation
3. 2.3 Modes de transmission
4. 2.4 Type de connexion
  1. 2.4.1 Accès synchrone
  2. 2.4.2 Accès asynchrone
5. 2.5 Modalité de traitement des données
  1. 2.5.1 Traitement des données en Lot ou Batch Processing
  2. 2.5.2 Traitement des données en temps réel
  3. 2.5.3 Traitement des données en flux ou Stream Processing
  4. 2.5.4 Récapitulatif
3. Principes de fonctionnement
1. 3.1 Les étapes d’une bonne intégration de données
2. 3.2 La montée en charge et la tolérance de panne
3. 3.3 Connecteurs
4. Les solutions d’intégration de données
1. 4.1 Les ETL
  1. 4.1.1 Les connecteurs
  2. 4.1.2 Les flux ETL (mappings)
  3. 4.1.3 Les caractéristiques
2. 4.2 Les ELT
3. 4.3 La virtualisation de données
5. Les solutions orientées bus
1. 5.1 Le bus de message
2. 5.2 Le mode point à point
3. 5.3 Le mode publication-souscription
4. 5.4 À retenir

Analyser et fiabiliser les données

1. Introduction
2. La préparation de données
3. Analyse descriptive
1. 3.1 Analyses basiques
2. 3.2 Corrélation entre colonnes
3. 3.3 Détection de liens entre tables (entre jeux de données)
4. Analyse exploratoire et visualisation de données
1. 4.1 Visualiser pour mieux analyser !
2. 4.2 Les principes de la Gestalt
3. 4.3 Les primitives graphiques
4. 4.4 Les représentations graphiques
  1. 4.4.1 Le texte simple
  2. 4.4.2 Les tableaux
  3. 4.4.3 Le nuage de points
  4. 4.4.4 Les courbes
  5. 4.4.5 Les graphes de surface
  6. 4.4.6 Les diagrammes à barres
  7. 4.4.7 Les histogrammes
  8. 4.4.8 Les cartes de chaleurs
  9. 4.4.9 Les boîtes à moustaches
  10. 4.4.10 Les cartes
  11. 4.4.11 Les autres visualisations
5. 4.5 Utiliser la DataViz pour analyser les données
  1. 4.5.1 La proximité améliore l’association visuelle
  2. 4.5.2 Réduisez le jeu de données si nécessaire
  3. 4.5.3 Triez les données
  4. 4.5.4 Regroupez les données
  5. 4.5.5 Bannissez les surcharges
  6. 4.5.6 Jouez sur les couleurs
  7. 4.5.7 Astuces visuelles
6. 4.6 Premier bilan
5. Quelques exemples d’analyses
1. 5.1 L’analyse de données par cohorte
2. 5.2 L’analyse inférentielle
3. 5.3 L’analyse prédictive
4. 5.4 L’analyse causale
6. Qualité de la donnée
1. 6.1 Pourquoi faire de la qualité de données ?
2. 6.2 Les critères de qualité de données
3. 6.3 Comment faire de la qualité de données ?
4. 6.4 Analyse, indicateurs et règles
5. 6.5 Les règles
  1. 6.5.1 Les formules
  2. 6.5.2 Les règles de contrôles et calculs ensemblistes
  3. 6.5.3 Les règles de standardisation
  4. 6.5.4 Le parsing
6. 6.6 Le dédoublonnage
  1. 6.6.1 Principes
  2. 6.6.2 Détection de lignes en double
  3. 6.6.3 Principe de dédoublonnage par Rapprochement-Consolidation
  4. 6.6.4 Première étape : le partitionnement (découpage en groupes)
  5. 6.6.5 Deuxième étape: le rapprochement
  6. 6.6.6 Troisième étape : re-partitionnement et association
  7. 6.6.7 Quatrième étape : consolidation des données (Golden Record)

La gouvernance des données

1. Introduction
2. L’équipe de gouvernance de données
3. Les métadonnées
1. 3.1 Les enjeux autour de la gestion des métadonnées
2. 3.2 Les métadonnées techniques
3. 3.3 Les métadonnées métier - Le glossaire métier
  1. 3.3.1 La taxonomie
  2. 3.3.2 Les hiérarchies
  3. 3.3.3 Fonctionnement
4. Le lignage des données
1. 4.1 Introduction
2. 4.2 Les couches de lignage
3. 4.3 Mode de fonctionnement
4. 4.4 Analyse d’impact
5. 4.5 La navigation
5. Le catalogue de métadonnées
6. La sécurité des données
1. 6.1 Anonymisation vs Pseudonymisation
2. 6.2 Chiffrement de l’information
  1. 6.2.1 Le chiffrement symétrique
  2. 6.2.2 Le chiffrement asymétrique
  3. 6.2.3 Caractéristiques de chiffrement
3. 6.3 Masquage permanent des données
4. 6.4 Masquage dynamique des données
5. 6.5 Techniques et méthodes
7. La fabrique de données (Data Fabric)
8. Le maillage de données (Data Mesh)

Valoriser ses données avec l’IA

1. Introduction
2. L’utilisation de l’IA
1. 2.1 Prendre des décisions
2. 2.2 Vision par ordinateur
3. 2.3 Le traitement d’informations textuelles (NLP)
3. Le Machine Learning
1. 3.1 Principe de l’apprentissage
2. 3.2 Approche déterministe vs probabiliste
3. 3.3 Les types d’apprentissages
4. 3.4 Le projet de Machine Learning
  1. 3.4.1 Première étape : définition des objectifs
  2. 3.4.2 Étape intermédiaire : accès et analyse des données
  3. 3.4.3 Deuxième étape : préparation des données
  4. 3.4.4 Troisième étape : découpage du jeu de données
  5. 3.4.5 Quatrième étape: entraînement
  6. 3.4.6 Cinquième étape : évaluation et scoring
  7. 3.4.7 Sixième étape : déploiement et industrialisation
5. 3.5 Biais et variance
  1. 3.5.1 Le biais
  2. 3.5.2 La variance
  3. 3.5.3 Biais et/ou variance ?
4. Les réseaux de neurones
1. 4.1 Qu’est-ce qu’un réseau de neurones ?
2. 4.2 Fonctionnement d’un neurone
3. 4.3 Les architectures de réseaux de neurones
  1. 4.3.1 L’entraînement des réseaux de neurones
  2. 4.3.2 Les réseaux de neurones artificiels (ANN)
  3. 4.3.3 Les réseaux de neurones convolutifs (CNN)
  4. 4.3.4 Les réseaux de neurones récurrents (RNN)
  5. 4.3.5 Les réseaux de type AutoEncoder
  6. 4.3.6 Les réseaux GAN
4. 4.4 Le Transfer Learning
5. L’eXplainable AI
1. 5.1 Pourquoi et comment expliquer un modèle
2. 5.2 Les algorithmes interprétables
3. 5.3 LIME
4. 5.4 SHAP
5. 5.5 PDP

Les grandes solutions de gestion de données

1. Introduction
2. Le Data Warehouse
1. 2.1 Principes généraux de chargement d’un Data Warehouse
2. 2.2 La modélisation
3. 2.3 Les Data Marts
4. 2.4 Les cubes/OLAP
3. Le Data Lake
1. 3.1 Le lac de données
2. 3.2 Le socle technologique
3. 3.3 Lac ou entrepôt de données ?
4. Le référentiel (MDM)
1. 4.1 Introduction
2. 4.2 Les architectures de MDM
  1. 4.2.1 Les solutions analytiques ou de consolidation
  2. 4.2.2 Les architectures de type Registre
  3. 4.2.3 Les solutions de type coexistence
  4. 4.2.4 Les solutions de type centralisé
3. 4.3 Les grandes fonctions des MDM multidomaine
  1. 4.3.1 La modélisation
  2. 4.3.2 L’alimentation
  3. 4.3.3 La communication avec les systèmes externes
  4. 4.3.4 La gouvernance
  5. 4.3.5 La traçabilité des données d’origine
  6. 4.3.6 L’historisation des données
5. Le Data Hub
1. 5.1 Les natures de Data Hub
2. 5.2 Les types de stockage
3. 5.3 Centralisation et modélisation des données
6. L’EDI
1. 6.1 Principes de fonctionnement de l’EDI
2. 6.2 EDI et organisations
3. 6.3 Avantages et inconvénients
4. 6.4 Services EDI
7. Bilan
Glossaire
Index

28/09/2022

Livraison rapide

Anonyme

Benoit CAYLA

Ingénieur en informatique avec plus de 20 ans d’expérience dans la gestion et l’utilisation de données, Benoit CAYLA a mis son expertise au profit de projets très variés tels que l’intégration, la gouvernance, l’analyse, l’IA, la mise en place de MDM ou de solution PIM pour le compte de diverses entreprises spécialisées dans la donnée (dont IBM, Informatica et Tableau). Ces riches expériences l’ont naturellement conduit à intervenir dans des projets de plus grande envergure autour de la gestion et de la valorisation des données, et ce principalement dans des secteurs d’activités tels que l’industrie, la grande distribution, l’assurance et la finance. Également, passionné d’IA (Machine Learning, NLP et Deep Learning), l’auteur a rejoint Blue Prism en 2019 et travaille aujourd’hui en tant qu’expert data/IA et processus. Son sens pédagogique ainsi que son expertise l’ont aussi amené à animer un blog en français (datacorner.fr) ayant pour but de montrer comment comprendre, analyser et utiliser ses données le plus simplement possible.