Blog ENI : Toute la veille numérique !
Offre estivale️ ☀️ : de -20% à -30% sur les livres en ligne et vidéos, avec le code PLAGE Cliquez ici !
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. La data - Guide de survie dans le monde de la donnée (2e édition)

La data Guide de survie dans le monde de la donnée (2e édition)

Informations

Livraison possible dès le 29 juillet 2024
  • Livraison à partir de 0,01 €
  • Version en ligne offerte pendant 1 an
Livres rédigés par des auteurs francophones et imprimés à Nantes

Caractéristiques

  • Livre (broché) - 17 x 21 cm
  • ISBN : 978-2-409-04530-1
  • EAN : 9782409045301
  • Ref. ENI : DPHS-2DATA

Informations

  • Consultable en ligne immédiatement après validation du paiement et pour une durée de 10 ans.
  • Version HTML
Livres rédigés par des auteurs francophones et imprimés à Nantes

Caractéristiques

  • HTML
  • ISBN : 978-2-409-04531-8
  • EAN : 9782409045318
  • Ref. ENI : LNDPHS-2DATA
Véritable manuel pratique, ce livre s’adresse à toute personne amenée à travailler avec les données (chefs de projets, CDO, Architectes, Ingénieurs Data ou même Data Scientists) qui souhaite étendre ses connaissances autour de la gestion de données ou qui rencontre des besoins ponctuels sur des opérations à réaliser. L’objectif est de présenter tous les concepts et notions utiles dès lors que l’on est impliqué dans un projet de données. Chaque chapitre peut être lu indépendamment des autres et...
Consulter des extraits du livre en ligne Aperçu du livre papier
  • Niveau Initié à Confirmé
  • Nombre de pages 510 pages
  • Parution juillet 2024
  • Niveau Initié à Confirmé
  • Parution juillet 2024
Véritable manuel pratique, ce livre s’adresse à toute personne amenée à travailler avec les données (chefs de projets, CDO, Architectes, Ingénieurs Data ou même Data Scientists) qui souhaite étendre ses connaissances autour de la gestion de données ou qui rencontre des besoins ponctuels sur des opérations à réaliser. L’objectif est de présenter tous les concepts et notions utiles dès lors que l’on est impliqué dans un projet de données. Chaque chapitre peut être lu indépendamment des autres et des exemples viennent étayer les propos de l’auteur.

Le lecteur commence avec une clarification indispensable des différents concepts qui gravitent autour de la donnée. Cette entrée en matière permet de démontrer que la donnée est une notion plus complexe qu’on ne le pense. Le livre aborde ensuite le stockage des données ce qui amène naturellement à la notion d’intégration de ces données et à ses impacts sur le Système d’Information.

La donnée étant mouvante, l’auteur expose ensuite les moyens à mettre en place pour une gouvernance de données efficace mais aussi pour mieux gérer son cycle de vie de manière globale. Cela permet au lecteur de mieux comprendre comment définir un cadre qui sera contrôlé et maîtrisé et d’expliquer en quoi les entreprises qui mettent en œuvre le Data Fabric ou le Data Mesh sont à même de proposer des services de données pertinents. Le livre détaille ensuite les méthodes d’analyse et de visualisation de données qui permettent de déceler des problèmes de qualité de données nécessitant ensuite de les nettoyer, les transformer et les valoriser en information de confiance.

Le lecteur sera finalement invité à mettre un pied dans le monde de l’IA et de l'IA générative sur laquelle cette deuxième édition met un coup de projecteur. Les principes et grandes notions autour du Machine Learning et du Deep Learning sont expliqués avec simplicité afin que le lecteur puisse mieux comprendre comment les algorithmes fonctionnent grâce aux données. Pour terminer, l’auteur explique comment les grandes architectures de données (Data warehouse, Data Lake, Modern Data Stack, Data Hub et EDI) fonctionnent en détaillant leurs principes et leurs différences.

Introduction
  1. Il était une fois la data
  2. Pourquoi ce livre ?
  3. Pourquoi une seconde édition ?
  4. À qui s’adresse ce livre ?
La donnée sous toutes ses facettes
  1. Introduction
  2. Qu’est-ce qu’une donnée ?
  3. Propriétés physiques
    1. 1. Le type
      1. a. Bits et octets
      2. b. Les nombres entiers
      3. c. Les nombres décimaux
      4. d. Les textes
      5. e. Les dates
      6. f. Les images
      7. g. La vidéo
      8. h. Le son
    2. 2. Le domaine
    3. 3. La variabilité
      1. a. Variable quantitative
      2. b. Variable catégorielle
  4. Propriétés de présentation
    1. 1. Le format
      1. a. Les dates
      2. b. Les nombres
      3. c. Les valeurs monétaires
      4. d. Les expressions régulières
    2. 2. L’internationalisation
  5. Propriétés structurelles
    1. 1. La granularité
    2. 2. La structure
      1. a. Les données structurées
      2. b. Les données semi-structurées
      3. c. Les données non structurées
    3. 3. Les mesures et la dispersion
      1. a. Éléments de mesure
      2. b. Les distributions
  6. Propriétés fonctionnelles
    1. 1. Le contexte
    2. 2. La sensibilité
      1. a. Les données personnelles
      2. b. Les autres données sensibles
      3. c. Mesure de la sensibilité
    3. 3. Appartenance
    4. 4. Traçabilité
  7. Vocabulaire des données
  8. Bilan
La persistance
  1. Introduction
  2. Fichiers
    1. 1. Le fichier CSV
    2. 2. Le fichier XML
    3. 3. Le fichier JSON
    4. 4. Le fichier parquet
  3. Les bases de données
    1. 1. Familles de bases de données
    2. 2. La modélisation
      1. a. La démarche de modélisation avecMerise
      2. b. Les types de modélisation
    3. 3. L’intégrité référentielle(CIT)
    4. 4. L’indexation des données
      1. a. Principe de fonctionnement
      2. b. Création d’index
      3. c. Types d’index
  4. Les bases de données relationnelles (SGBD-R)
    1. 1. Le langage SQL
    2. 2. Le LMD en SQL
      1. a. La commande SELECT
      2. b. La clause UPDATE
      3. c. La clause INSERT
      4. d. La clause DELETE
      5. e. Opérations ensemblistes : les jointures
      6. f. Opérations ensemblistes : l’union
    3. 3. Les transactions
      1. a. Caractéristiques d’une transaction
      2. b. Critères A.C.I.D. d’une transaction
  5. Les systèmes OLTP et OLAP
  6. Système distribué et théorème CAP
  7. Les bases de données NoSQL
  8. Le Big Data
    1. 1. Les 3 V
    2. 2. Hadoop
      1. a. HDFS
      2. b. MapReduce
      3. c. YARN
    3. 3. La gestion des données avec Hadoop
      1. a. Hive
      2. b. HBase
      3. c. Sqoop
      4. d. Cassandra
      5. e. MongoDB
    4. 4. Les outils de programmation
      1. a. Pig
      2. b. Spark
  9. Les bases de données vectorielles
    1. 1. Introduction aux bases vectorielles
    2. 2. Caractéristiques clés des basesde données vectorielles
  10. La gestion de cache
    1. 1. Le cache comme tampon
    2. 2. Les mécanismes ou techniques de cache
      1. a. La gestion dite Cache-Aside ou Lazy-Load
      2. b. Le mécanisme de Write-Through
      3. c. La technique de Write-Behind Cache (ou Write-BehindCaching)
      4. d. Le cache Read-Through
      5. e. L’algorithme Least Recently Used (LRU)
      6. f. Le cache Time-To-Live (TTL)
      7. g. Le cache à deux niveaux (Two-Level)
  11. Les tendances actuelles
    1. 1. Bases de données dans le Cloud (Databaseas a Service : DBaaS)
    2. 2. Le MDS (Modern Data Stack)
  12. Bilan
L’intégration de données
  1. Introduction
  2. Propriétés d'une solution d'intégration de données
    1. 1. Architecture pour l’intégrationde données
    2. 2. Les grands modèles d’intégrationde données
      1. a. La diffusion de données
      2. b. La migration de données
      3. c. La synchronisation
      4. d. L’agrégation
      5. e. La corrélation
    3. 3. Modes de transmission
    4. 4. Type de connexion
      1. a. Accès synchrone
      2. b. Accès asynchrone
    5. 5. Modalité de traitement des données
      1. a. Traitement des données en lots ou Batch Processing
      2. b. Traitement des données en temps réel
      3. c. Traitement des données en flux ou StreamProcessing
      4. d. Récapitulatif
  3. Principes de fonctionnement
    1. 1. Les étapes d’une bonne intégrationde données
    2. 2. La montée en charge et la tolérancede panne
    3. 3. Connecteurs
      1. a. Introduction
      2. b. ODBC
      3. c. JDBC
  4. Les solutions d’intégration de données
    1. 1. Les ETL
      1. a. Les connecteurs
      2. b. Les flux ETL (mappings)
      3. c. Les caractéristiques
    2. 2. Les ELT
    3. 3. La virtualisation de données
  5. Le pipeline de données
    1. 1. Qu’est-ce qu’un pipeline de données ?
    2. 2. Le marché des solutions de pipeline de données
  6. Les solutions orientées bus
    1. 1. Le bus de message
    2. 2. Le mode point à point
    3. 3. Le mode publication-souscription
    4. 4. À retenir
  7. L'orchestration des flux de données
    1. 1. Une activité annexe mais clé
    2. 2. Apache Airflow
  8. Bilan
Analyser et fiabiliser les données
  1. Introduction
    1. 1. Objectif
    2. 2. Explorer avant d’analyser
    3. 3. Comment procéder ?
  2. La préparation de données
  3. Analyse technique
    1. 1. Analyses basiques
    2. 2. Corrélation entre colonnes
    3. 3. Détection de liens entre tables
  4. Le Data Mining pour aller plus loin dans l'analyse
    1. 1. Qu’est-ce que le Data Mining ?
    2. 2. Les techniques utilisées dans le Data Mining
  5. Analyse fonctionnelle et visualisation de données
    1. 1. Visualiser pour mieux analyser !
    2. 2. Les principes de la Gestalt
    3. 3. Les primitives graphiques
    4. 4. Les représentations graphiques
      1. a. Le texte simple
      2. b. Les tableaux
      3. c. Le nuage de points
      4. d. Les courbes
      5. e. Les graphes de surface
      6. f. Les diagrammes à barres
      7. g. Les histogrammes
      8. h. Les cartes de chaleur
      9. i. Les boîtes à moustaches
      10. j. Les cartes
      11. k. Les autres visualisations
    5. 5. Utiliser la DataViz pour analyser les données
      1. a. La proximité améliore l’associationvisuelle
      2. b. Réduire le jeu de données au nécessaire
      3. c. Trier les données
      4. d. Regrouper les données
      5. e. Bannir les surcharges
      6. f. Utiliser sciemment les couleurs
      7. g. Autres astuces visuelles
    6. 6. DataViz et créativité
  6. Quelques exemples d’analyse
    1. 1. L’analyse de données de cohorte
    2. 2. L’analyse inférentielle
    3. 3. L’analyse prédictive
    4. 4. L’analyse causale
  7. Qualité de la donnée
    1. 1. Objectifs de la qualité de données
    2. 2. Les critères de qualité de données
    3. 3. Comment faire de la qualité de données ?
    4. 4. Indicateurs et règles
    5. 5. Les règles
      1. a. Les formules
      2. b. Les règles de contrôle et calculsensemblistes
      3. c. Les règles de standardisation
      4. d. Le parsing
    6. 6. Le dédoublonnage
      1. a. Principes
      2. b. Détection de lignes en double
      3. c. Principe de dédoublonnage par Rapprochement-Consolidation
      4. d. Première étape : lepartitionnement (découpage en groupes)
      5. e. Deuxième étape : lerapprochement
      6. f. Troisième étape : repartitionnementet association
      7. g. Quatrième étape : consolidationdes données (Golden Record)
  8. Bilan
Gérer le cycle de vie de la donnée
  1. Introduction
  2. Les outils et notions fondamentales
    1. 1. Les métadonnées
      1. a. Les enjeux autour de la gestion des métadonnées
      2. b. Les métadonnées techniques
      3. c. Les métadonnées métier- Le glossaire métier
    2. 2. Le lignage des données
      1. a. Introduction
      2. b. Les couches de lignage
      3. c. Mode de fonctionnement
      4. d. L’analyse d’impact
      5. e. La navigation
    3. 3. Le catalogue de métadonnées
  3. La sécurité des données
    1. 1. Anonymisation vs Pseudonymisation
    2. 2. Chiffrement de l’information
      1. a. Le chiffrement symétrique
      2. b. Le chiffrement asymétrique
      3. c. Caractéristiques de chiffrement
    3. 3. Masquage permanent des données
    4. 4. Masquage dynamique des données
    5. 5. Techniques et méthodes de masquage
  4. La gouvernance des données
    1. 1. Qu’est-ce que la gouvernance de données?
    2. 2. L’équipe de gouvernance de données
  5. L’observabilité de données
    1. 1. Présentation
    2. 2. Les fondements de l’observabilité
    3. 3. Le marché de l’observabilité dedonnées
  6. Le DataOps
    1. 1. Introduction
    2. 2. DataOps et agilité
    3. 3. Le DataOps aujourd’hui
  7. La donnée en tant que « produit »
    1. 1. L’Open Data
    2. 2. Data as a Service (DaaS)
    3. 3. La fabrique de données (Data Fabric)
    4. 4. Le maillage de données (Data Mesh)
  8. Bilan
Valoriser ses données avec l’IA
  1. Introduction
  2. L’utilisation de l’IA
    1. 1. Prendre des décisions
    2. 2. Vision par ordinateur
    3. 3. Traitement du langage naturel (NLP)
  3. Le Machine Learning
    1. 1. Principe de l’apprentissage
    2. 2. Approche déterministe vs approche probabiliste
    3. 3. Les types d’apprentissage
    4. 4. Le projet de Machine Learning
      1. a. Première étape : définitiondes objectifs
      2. b. Étape intermédiaire : accèset analyse des données
      3. c. Deuxième étape : préparationdes données
      4. d. Troisième étape : découpagedu jeu de données
      5. e. Quatrième étape : entraînement
      6. f. Cinquième étape : évaluationet scoring
      7. g. Sixième étape : déploiementet industrialisation
    5. 5. Biais et variance
      1. a. Le biais
      2. b. La variance
      3. c. Biais et/ou variance ?
  4. Les réseaux de neurones
    1. 1. Qu’est-ce qu’un réseaude neurones ?
    2. 2. Fonctionnement d’un neurone
    3. 3. Les architectures de réseaux de neurones
      1. a. L’entraînement des réseauxde neurones
      2. b. Les réseaux de neurones artificiels (ANN)
      3. c. Les réseaux de neurones convolutifs (CNN)
      4. d. Les réseaux de neurones récurrents(RNN)
      5. e. Les réseaux de type AutoEncoder et VAEs
      6. f. Les réseaux GAN
      7. g. Le Transformer
    4. 4. Réutiliser un entraînement
      1. a. Le Transfer Learning
      2. b. Le fine-tuning
    5. 5. Les LLM (Large Language Models)
  5. L’eXplainable AI
    1. 1. Pourquoi et comment expliquer un modèle ?
    2. 2. Les algorithmes interprétables
    3. 3. LIME
    4. 4. SHAP
    5. 5. PDP
  6. L'IA générative
  7. Bilan
Les grandes solutions de gestion de données
  1. Introduction
  2. Le Data Warehouse
    1. 1. Data Warehouse et Infocentre
    2. 2. Principes généraux de chargementd’un Data Warehouse
    3. 3. La modélisation
    4. 4. Les Datamarts
    5. 5. Les cubes/OLAP
  3. Le Data Lake
  4. Le Lake House
  5. Le référentiel de données (MDM - Master Data Management)
    1. 1. Introduction
    2. 2. Les architectures de MDM
      1. a. Les solutions analytiques ou de consolidation
      2. b. Les architectures de type Registre
      3. c. Les solutions de type coexistence
      4. d. Les solutions de type centralisé
    3. 3. Les grandes fonctions des MDM multidomaines
      1. a. La modélisation
      2. b. L’alimentation
      3. c. La communication avec les systèmes externes
      4. d. La gouvernance
      5. e. La traçabilité des donnéesd’origine
      6. f. L’historisation des données
  6. Le Data Hub
    1. 1. Les types de Data Hub
    2. 2. Les types de stockage
    3. 3. Centralisation et modélisation des données
  7. L’EDI
    1. 1. Principes de fonctionnement de l’EDI
    2. 2. EDI et organisations
    3. 3. Avantages et inconvénients
    4. 4. Services EDI
  8. Guide comparatif des solutions de gestion de données
  9. Bilan
Glossaire
  1. Introduction
Auteur : Benoit CAYLA

Benoit CAYLA

Ingénieur en informatique avec plus de 20 ans d’expérience dans la gestion et l’utilisation de données, Benoit CAYLA a mis son expertise au profit de projets très variés tels que l’intégration, la gouvernance, l’analyse, l’IA, la mise en place de MDM ou de solution PIM pour le compte de diverses entreprises spécialisées dans la donnée (dont IBM, Informatica et Tableau). Ces riches expériences l’ont naturellement conduit à intervenir dans des projets de plus grande envergure autour de la gestion et de la valorisation des données, et ce principalement dans des secteurs d’activités tels que l’industrie, la grande distribution, l’assurance et la finance. Également, passionné d’IA (Machine Learning, NLP et Deep Learning), l’auteur a rejoint Blue Prism en 2019 et travaille aujourd’hui en tant qu’expert data/IA et processus. Son sens pédagogique ainsi que son expertise l’ont aussi amené à animer un blog en français (datacorner.fr) ayant pour but de montrer comment comprendre, analyser et utiliser ses données le plus simplement possible.
En savoir plus

Nos nouveautés

voir plus