Name: La data Guide de survie dans le monde de la donnée (2e édition)
Rating: 5 (2 reviews)

Introduction

Avant de se lancer dans la découverte de ce que l’on peut faire avec des données, il est important de revenir sur quelques notions qui peuvent apparaître parfois comme des évidences. Certains esquisseront sans doute un sourire en lisant le titre du premier chapitre. Mais à y regarder de plus près, ce qui semble évident ne l’est pas nécessairement dès lors que l’on creuse un tout petit peu plus le sujet. Alors, faisons cet effort de poser les fondamentaux, et réfléchissons ensemble aux questions suivantes :

Qu’est-ce qu’une donnée ?
Comment se décrit-elle ?
Quel est son rôle ?
Comment s’utilise-t-elle ?
Comment la contrôler ?

Qu’est-ce qu’une donnée ?

Pour y répondre, notre premier réflexe pourrait être d’ouvrir notre navigateur et d’aller sur Wikipédia.

Voici donc la définition d’une donnée selon Wikipédia :

Une donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d’une solution à un problème en relation avec cette donnée.

Une donnée est en quelque sorte un fait, un constat, quelque chose de concret qui a été notifié. Mais c’est aussi bien souvent, voire presque toujours, un fait brut. On distinguera dès à présent la nuance entre une donnée et une information. La donnée est en effet un point de départ alors que l’information est bien souvent ce que l’on espère en tirer : un résultat exploitable en quelque sorte. Mais pour cela, il faut valoriser la donnée brute, la mettre en perspective par rapport à son contexte et sa nature propre. Pour faire une métaphore, la donnée est au pétrole ce que l’information est à l’essence. Or, qui mettrait du pétrole brut dans son réservoir ? On a donc tous besoin d’informations et non de données brutes (parfois inexploitables en l’état).

Malheureusement...

Propriétés physiques

1. Le type

C’est probablement la première chose à laquelle on pense dès lors que l’on récupère une donnée. À vrai dire, si on faisait un sondage auprès de développeurs, il est presque certain que c’est la première propriété qui leur viendrait à l’esprit. Qu’est-ce que le type d’une donnée ? La définition de Wikipédia est plutôt généraliste :

En programmation informatique, un type de donnée, ou simplement un type, définit la nature des valeurs que peut prendre une donnée, ainsi que les opérateurs qui peuvent lui être appliqués.

On peut voir un type comme une catégorie structurelle de données. Voici quelques exemples de types, mais la liste n’est pas exhaustive : nombre, texte, date, monétaire, booléen... pour les plus connus. Évidemment, si on regarde du côté des systèmes de stockage de données (comme les bases de données ou même les fichiers), on découvre encore plus de variantes de ces types de base. En effet, le type de données permet aussi de définir l’espace de stockage nécessaire à cette donnée.

a. Bits et octets

La réalité est que l’on peut créer autant de types de données que l’on veut, tout simplement parce que tous les types de données ne sont que des extensions d’un seul type de base : le binaire ou bit.

Une information binaire (ou 1 bit) ne propose que deux possibilités ou valeurs : zéro (0) ou un (1).

[0,1] -> 2 possibilités (0 ou 1)

Si on ajoute un autre chiffre binaire à côté (affichage sur 2 bits) :

[0,1][0,1] -> on a alors 2² soit 4 possibilités (00, 01, 11, 10)

Si on ajoute encore un autre chiffre binaire à côté (affichage sur 3 bits) :

[0,1][0,1][0,1] -> on a alors 2³ soit 8 possibilités (000, 010, 011...)

Et ainsi de suite. On peut donc stocker toute donnée sous la forme de suite de chiffres binaires et c’est exactement comme cela que fonctionnent nos ordinateurs actuels.

En informatique, on parle aussi de données booléennes (en référence à...

Propriétés de présentation

1. Le format

On a étudié dans les sections précédentes les types de données et abordé la notion de format, deux notions qui peuvent être liées. Voyons maintenant comment, pour un même type de données, il est possible de distinguer plusieurs formats. Il est important de noter ici qu’une même donnée peut avoir plusieurs formats ou mises en forme possibles (c’est le cas de la date). Il est même possible que la manière dont on formate une donnée influe sur la valeur de la donnée elle-même (comme on le verra juste après avec les dates par exemple). D’une certaine manière, il faut garder en tête qu’il y a plusieurs manières de présenter une donnée. Toutes peuvent être correctes d’un point de vue syntaxique mais peut-être pas du point de vue du sens de cette donnée. Il est donc important de connaître le(s) bon(s) format(s) à utiliser pour exploiter correctement cette donnée. Le ou les formats sont donc des informations importantes (métadonnée) sur une donnée.

a. Les dates

L’exemple le plus fréquent de confusion entre le type et le format se trouve dès lors que l’on doit gérer des données de type date.

Imaginons que l’on ait une date telle que celle-ci : 12/01/2021

Est-ce le 12 janvier 2021 ? (format européen)
Ou le 1^er décembre 2021 ? (format américain)

En effet, tous les pays ne gèrent pas l’affichage (et donc parfois le stockage) des données dates de la même manière. Dans certains cas, on aura des inversions entre les jours et les mois (comme dans notre exemple), dans d’autres cas on aura des tirets au lieu de slashs, ou encore des formats avec le mois abrégé sur trois caractères (2 jan 2021), etc.

On ne va pas aborder ici toutes les possibilités d’affichage, mais comment ne pas aborder à ce stade la norme ISO 860 ? Cette dernière impose en effet la représentation de la date et de l’heure basée sur le calendrier grégorien et le système horaire de 24 heures.

Exemple : 1979-02-03T13:00:00-08:00 correspond au 3 février à 13 heures....

Propriétés structurelles

Aborder la structure d’une donnée implique très souvent de la mettre en perspective avec elle-même ou avec un contexte. C’est une étape importante car cette mise en contexte va lui donner une valeur concrète.

À titre d’exemple :

Le nombre 46,3 seul ne veut strictement rien dire.
46,3 M€ indique que l’on parle d’un montant en million d’euros, mais n’apporte guère plus de compréhension.
46,3 M€ de CA précise que l’on parle d’un chiffre d’affaires. Oui, mais lequel exactement ?
46,3 M€ de CA sur Sept 2023 complète avec une nouvelle information externe (le mois) qui indique que ce chiffre d’affaires a été réalisé sur le mois de septembre 2023.

On voit ici que l’ajout d’éléments à une donnée initiale, ici 46,3 apporte plus de valeur et de précision à cette donnée brute. En effet, un chiffre seul n’est pas vraiment pertinent. A contrario, comparer cette donnée à différents moments sur une échelle de temps (pour mesurer la performance sur une année glissante par exemple), ou à d’autres éléments organisationnels par exemple (comme par régions, services, etc.) permet de mieux contextualiser et exploiter cette information.

Cette mise en perspective (ou contexte) implique de regarder la donnée (46,3 k€ de CA) sous d’autres angles.

Ainsi on va devoir mieux comprendre :

la granularité des perspectives/contextes ;
la structure (mais ici nous avons une donnée simple : une micro-donnée, elle n’a donc pas de structure à proprement parler) ;
la dispersion et la manière dont la donnée se situe dans un environnement contextualisé.

1. La granularité

Quelle est la granularité d’une donnée ? Un document (comme une facture), une liste de produits, un simple montant (TTC) ou une pile de documents contiennent des données, mais d’un point de vue macroscopique (ou agrégé par exemple). On peut aussi le considérer comme une donnée. Pour catégoriser une donnée on doit commencer par connaître sa profondeur et son périmètre.

Quand on veut travailler...

Propriétés fonctionnelles

1. Le contexte

Le contexte est peut-être la caractéristique la plus importante qui permet d’une part de bien expliquer une donnée et d’autre part de la positionner dans un cadre fonctionnel ou d’utilisation. C’est aussi souvent la plus complexe à définir. La valeur d’une donnée, ce qui fait par ailleurs qu’elle sera exploitable, est inéluctablement liée à son contexte. Et ce contexte n’est malheureusement pas toujours quantifiable. Il est parfois même assez abstrait car il s’explique et se comprend par rapport à un environnement fonctionnel précis. Il fait partie intégrante de la définition, du moins de la signification supposée de la donnée et a une grande influence sur ce qu’elle représente concrètement.

Exemples

Contexte spatial : comment utiliser correctement une valeur immobilière sans la localité ?
Contexte temporel : que faire d’un chiffre d’affaires sans sa période d’application ?

Une donnée a donc une valeur dans son contexte et peut donc être invalide hors de ce dernier. C’est le cas d’une date de péremption par exemple. On parle alors de fraîcheur de la donnée quand cette dernière peut être altérée dans le temps. D’une manière générale, une donnée se définit par rapport à un ou plusieurs contextes et c’est aux utilisateurs de définir la qualité de cette donnée par rapport au contexte posé. On peut définir le contexte d’une donnée en se référant à d’autres données, c’est typiquement le cas dans le cadre d’une description organisationnelle (chaîne de responsabilité, parentalité, etc.). En effet, si on doit se décrire par rapport à sa famille, cela n’a de sens que si les liens père-fils, père-grand-mère, etc. sont bien définis. On est alors contextualisé par rapport à notre arbre généalogique.

À noter que le contexte peut être de plusieurs natures comme dans l’exemple précédent (organisation, généalogie), mais...

Vocabulaire des données

Les données sont avant tout définies par et pour leurs usages. On verra dans les chapitres suivants que ces données sont surtout une mine d’or brute à exploiter afin d’en extraire leur réelle valeur. Mais avant d’aborder ces différents usages et afin de clore ce chapitre, il est important de préciser quelques éléments de langage que l’on rencontre fréquemment.

Attention, ces terminologies sont très relatives et dépendent totalement du contexte d’utilisation de ladite donnée.

Donnée chaude	Cette image de donnée chaude désigne une donnée qui vient d’être récupérée dans un système et qui va être très rapidement utilisée par un ou d’autres systèmes. Ce sont des données qui sont très utilisées dans le système d’informations mais qui ont pour défaut d’être très volatiles. Exemple : les informations de stock produit dans un ERP.
Donnée d’intention	Une donnée d’intention est une donnée chaude qui doit être utilisée très rapidement sans quoi elle deviendra obsolète ou périmée (donnant même un résultat faux). Exemple : données de comportement d’un acheteur naviguant sur...

Bilan

À retenir
Une donnée est très rarement exploitable en tant que telle, elle doit être retravaillée dans un contexte technique et fonctionnel pour produire une information. Une donnée est multi-facette et possède des propriétés : physiques ; de présentation ; fonctionnelles ; structurelles. Une même donnée mais avec des caractéristiques différentes peut mener à des informations totalement différentes. Une donnée peut n’avoir de valeur que quand elle est dans un groupe de données (distribution). Certaines données ne peuvent être isolées. Exemple : un chiffre d’affaires seul n’apporte pas de valeur, a contrario l’évolution de ce chiffre d’affaires sur une année glissante est beaucoup plus intéressante.
Pour aller plus loin
https://github.com/datacorner/ladata

La donnée sous toutes ses facettes