Name: La data Guide de survie dans le monde de la donnée (2e édition)
Rating: 5 (2 reviews)

Introduction

Dans les sections précédentes, on a exploré divers aspects liés à la nature intrinsèque des données. On a présenté les méthodes de stockage, de transport et de transformation des données au sein du système d’information. On a ensuite vu comment analyser et nettoyer des données. Mais voilà, ces données, tout aussi connues et nettoyées soient-elles, sont aussi une matière mouvante. Elles bougent et évoluent régulièrement. Tout ce travail préalable de nettoyage peut donc être remis en question. En effet, si les informations issues des données sont une richesse attendue par l’entreprise, il est impératif de pérenniser tout ce travail.

Il est donc temps de préparer la phase d’industrialisation qui implique de mettre en place des règles de contrôle et de gouvernance sur ces données pour mieux contrôler la vie de ces données qui sont l’énergie brute de l’entreprise. De même, il est important de clarifier les règles organisationnelles afin de fluidifier leur industrialisation et garantir leur sécurité et leur stabilité. On passe alors de la donnée à une information stable et maîtrisée.

De la même façon que l’on a vu que la donnée...

Les outils et notions fondamentales

Il est impossible d’envisager l’industrialisation ou la gestion du cycle de vie de données sans aborder les outils et notions sous-jacentes nécessaires à leur mise en œuvre. On pense tout d’abord à la notion de métadonnée qui est un concept important pour qualifier et définir une donnée dans son cycle de vie. Ensuite, le lignage de données (qui s’appuie d’ailleurs sur les métadonnées) permet de reconstruire le chemin parcouru par une donnée et de déterminer d’où provient ou de dire par quel système elle est traitée ou utilisée, etc. Pour terminer, comme dans tout bon inventaire, on devra créer un catalogue de données pour répertorier toutes les connaissances autour d’une même donnée et ainsi la rendre accessible à toutes les parties prenantes.

1. Les métadonnées

Qu’est-ce qu’une métadonnée ? Par définition, une métadonnée est une information qualificative d’une donnée. Certes, cette définition est un peu vague. Voyez une métadonnée comme une façon de définir ou même de décrire une information. Rappelons que les données ont plusieurs facettes et que, selon la personne qui consomme la donnée, celle-ci peut avoir une signification différente. Les métadonnées ont aussi pour but de lever les ambiguïtés sur la réelle teneur des données. C’est en quelque sorte un étiquetage indispensable qui permet de qualifier sans doute l’information stockée et gérée par l’entreprise. En fait, la métadonnée est à la donnée ce que l’étiquette est au produit.

Définir le socle de métadonnées, c’est aussi avoir une double approche, à la fois technique et fonctionnelle. En effet, l’étiquetage des données peut être abordé sous le prisme technique (stockage, nom de table, nom de colonne, type technique, etc.) mais aussi d’un point de vue sémantique et métier (numéro de facture, nomenclature à respecter, etc.). L’intérêt dans une démarche liée...

La sécurité des données

La sécurité des données est devenue depuis quelques années un domaine extrêmement prolifique et pourrait faire l’objet d’un (ou plusieurs) livres entiers tellement il y a à dire et à faire sur le sujet. Le RGPD (Règlement Général sur la Protection des Données) a accéléré bon nombre d’initiatives. Finalement, c’est une excellente chose car cela a permis de poser enfin les bases de la sensibilité des données et des devoirs en matière de gestion et de sécurité pour ceux qui les stockent.

L’objectif ici n’est pas de couvrir de manière exhaustive ce sujet, mais plutôt de parcourir les grands concepts autour de la sécurité des données. Comment protéger les données stockées ? Comment les rendre accessibles tout en les sécurisant via l’anonymisation, la pseudonymisation ou même le cryptage ? Voici les sujets qui seront développés dans cette section.

1. Anonymisation vs Pseudonymisation

Extrait du RGPD

Dans le cadre de la réglementation RGPD (ou GDPR en anglais), et plus particulièrement de la thématique spécifique autour de la sécurisation des données à caractère personnel, une première approche proposée consiste à pseudonymiser de manière définitive les données personnelles (cf. article précédent).

Mais qu’est-ce que la pseudonymisation, quelle différence avec l’anonymisation ?

L’anonymisation et la pseudonymisation sont deux procédés qui permettent d’altérer une donnée afin de lui enlever toute notion à connotation personnelle et ainsi la rendre méconnaissable. Dit autrement, une fois anonymisées ou pseudonymisées, les données ne doivent pas permettre d’identifier une personne.

Il y a néanmoins une différence notable entre anonymisation et pseudonymisation : la réversibilité du processus d’altération. Une fois une donnée anonymisée, il est impossible de faire le lien entre la donnée avant modification et celle produite par le processus d’anonymisation. A contrario...

La gouvernance des données

1. Qu’est-ce que la gouvernance de données ?

La gouvernance des données englobe les politiques, processus et normes qui définissent la gestion, la qualité et l’utilisation des données au sein d’une organisation. Elle vise à assurer l’intégrité, la confidentialité et la disponibilité des données, tout en établissant des responsabilités claires pour leur gestion et leur utilisation. On peut donc voir la gouvernance des données comme la loi et la police qui régissent les données de l’entreprise. Une gouvernance solide contribue à optimiser la valeur des données et à garantir leur conformité aux réglementations. On abordera dans cette section les moyens et les contrôles nécessaires à mettre en œuvre pour une bonne maîtrise de ces informations, et donc une bonne gouvernance.

La gouvernance des données englobe plusieurs concepts :

Les concepts de la gouvernance de données

À ces concepts, on doit ajouter des exigences de plus en plus fortes de la part des consommateurs de données telles que :

l’exactitude et l’intégrité des informations. À titre d’exemple, la collecte des données doit pour l’essentiel être automatisée, afin de réduire la probabilité d’erreurs à son minimum ;
l’exhaustivité des données ;
la bonne actualité des informations mises à disposition ;
la traçabilité (c’est un point particulièrement important et requis par les différents régulateurs) ;...

L’observabilité de données

1. Présentation

La « Data Observability » est une discipline récente qui vise à assurer une visibilité complète et continue sur les données d’une entreprise. Son objectif principal est de repérer et de résoudre rapidement les problèmes liés à la qualité, à la fiabilité et à l’accessibilité des données.

Il est essentiel d’adopter une perspective à 360 degrés de la donnée pour bien appréhender cette discipline. En effet, l’observabilité des données adopte une approche holistique tout au long du cycle de vie des données, offrant ainsi une visibilité continue à tous les intervenants impliqués.

Pour ce faire, cette discipline doit reposer sur une plateforme ou un ensemble cohérent d’outils et de pratiques autour de données provenant de différentes sources (voire de l’extérieur de l’entreprise). Cette plateforme d’observabilité de données permet alors de visualiser les données sous différents angles, de détecter les anomalies et de suivre l’évolution des données dans le temps. L’observabilité des données ne se limite d’ailleurs pas à la surveillance des données. Elle permet également d’optimiser la sécurité et la stabilité des données. En effet, en surveillant en permanence les flux de données, une solution d’observabilité des données permet de garantir l’efficacité des dispositifs de sécurité. Elle agit ainsi comme un moyen de détection précoce de tout problème éventuel.

L’observabilité des données tout au long du cycle de vie

Pour résumer, l’observabilité des données s’avère indispensable dès lors que la quantité et la complexité des données croît...

Le DataOps

1. Introduction

Le DataOps (abréviation de Data Operations) est une approche agile qui combine les principes du DevOps avec ceux de la Data Science pour gérer d’un point de vue opérationnel les données. Il vise à améliorer la qualité, la disponibilité et l’accessibilité des données, en s’appuyant sur trois grands concepts :

l’intégration des données provenant de différentes sources, qu’elles soient internes ou externes ;
l’automatisation des tâches répétitives, telles que la collecte, le nettoyage et le traitement des données ;
la collaboration étroite entre les équipes de données, les équipes informatiques et les équipes métier.

Le DataOps est proche du DevOps car il s’en inspire sans complexe. Ce dernier est une approche de la gestion des applications qui combine les principes du développement logiciel (Dev) et des opérations informatiques (Ops). Les deux approches s’appuient donc sur l’intégration, l’automatisation et la collaboration pour améliorer la qualité, la disponibilité et l’accessibilité de leurs domaines respectifs. Il était donc tout à fait logique et souhaitable de transposer cette idée sur la donnée, d’où le DataOps.

Dit autrement, le DataOps est une approche de la gestion des données qui se concentre sur la manière dont les informations sont collectées, stockées, traitées et utilisées. Il met aussi l’accent sur la collaboration entre les équipes d’ingénieurs données (Data Engineers), d’analyse des données, de Data scientists, ainsi que sur l’automatisation des processus traitements de données.

Le DataOps...

La donnée en tant que « produit »

Cette section explore les diverses approches liées au cycle de vie des données. Une stratégie efficace pour renforcer tout le travail de gestion des données en les alignant sur un objectif cohérent et durable peut consister à considérer la donnée comme un produit. À cet égard, nous examinerons trois grandes catégories d’architectures et d’organisations :

la Data as a Service (DaaS) ;
la Data Fabric ;
le Data Mesh.

Avant de passer en revue ces architectures, il parait difficile de ne pas aborder l’Open Data qui est sans doute la manière la plus connue de mettre à disposition des données sous forme de produit.

1. L’Open Data

L’Open Data, originaire du mouvement mondial en faveur de la transparence et de la collaboration, représente dans un contexte où la donnée est traitée comme un produit, une approche transparente et collaborative de la mise à disposition d’informations. En France, et à titre d’exemple, l’adoption de l’Open Data a gagné en importance à partir de 2011, avec l’implication de l’État français qui lance le portail data.gouv.fr. Depuis lors, le mouvement s’est consolidé, encouragé par de nouvelles initiatives gouvernementales et des efforts visant à libérer et partager des données, notamment institutionnelles.

Cette pratique implique le partage volontaire de données, permettant un accès public sans restriction. En considérant la donnée comme un produit, l’Open Data adopte une perspective où la qualité, la disponibilité et la compréhensibilité des données sont des critères essentiels. Les organisations qui embrassent cette approche reconnaissent la valeur intrinsèque de leurs données, cherchant à les positionner comme des produits utiles pour divers acteurs, que ce soient des citoyens, des entreprises ou d’autres entités. Cette démarche encourage l’innovation, la transparence et l’engagement du public en exploitant le potentiel des données comme un bien partagé au service de la société.

Elle incite également à la mise en place...

Bilan

À retenir
On peut envisager le cycle de vie de la donnée via plusieurs approches : Opérationnel : DataOps Monitoring : Data Observability Gouvernance : Data Governance Les métadonnées peuvent être : Techniques (stockage, transport, etc.) Fonctionnelles ou métier (description, sens, glossaire) Le lignage de données (Data Lineage) donne la traçabilité totale des données et permet notamment d’effectuer des analyses d’impact. La sécurisation des données peut être effectuée selon : L’anonymisation La pseudonymisation Le chiffrement (cryptage) symétrique ou asymétrique Le masquage (statique ou dynamique) Les initiatives de type Data Fabric ou Data Mesh permettent d’industrialiser la gestion des données et de pouvoir la fournir en tant que produit (Data Product).
Aller plus loin
https://github.com/datacorner/ladata
Marché et éditeurs
Data Lineage : Informatica, IBM Information Governance Catalog, Collibra Data Lineage, Erwin Data Intelligence, Talend Data Governance : Collibra, Informatica Axon, IBM Information Governance Catalog, Erwin Data Intelligence Data Masking : Informatica, IBM Guardium, Delphix, Oracle Data Masking Data Observability : Datadog, Splunk, Orkestra, Sifflet DataOps : il n’y a pas, à l’heure actuelle, d’éditeur spécifique de DataOps...

Gérer le cycle de vie de la donnée