La qualification des données
Présentation
Si vous avez pu réaliser assez facilement les graphiques avec Exemple Hypermarché, c’est notamment parce que les données du classeur ont été préparées pour une utilisation optimale. Avec des données réelles, autrement dit en dehors des fichiers exemples fournis par Tableau, vous devrez vous occuper vous-même de cette qualification des données.
Cette phase, qui est un préalable essentiel au travail sur la plupart des jeux de données, consiste à situer chaque colonne dans trois catégorisations différentes :
-
la première est simplement la notion classique de type de données, utilisées par toutes les bases de données ;
-
la deuxième est la distinction essentielle que fait l’informatique décisionnelle entre dimensions et mesures ;
-
la troisième est une notion issue des statistiques, que Tableau utilise de manière assez spécifique pour vous permettre de choisir entre représentation discrète ou continue de chaque donnée.
Dans la pratique, Tableau effectue une première qualification des données selon ces trois catégorisations ; votre travail consiste donc essentiellement à corriger à la marge les résultats de cette détection automatique.
Enfin, ces trois catégorisations n’épuisent...
Identifier les types de données
Le type exprime la façon dont Tableau comprend la nature de la donnée. Les types utilisés par Tableau sont simples et classiques : Chaîne (tout ce qui est texte), Nombre entier, Nombre décimal, Date, Date et heure, Booléen (c’est-à-dire vrai ou faux). Tableau représente les types par des icônes spécifiques (à l’exception des deux types numériques, qui partagent la même icône #).

Les six types de données et leurs icônes
La bonne détection des types de données par Tableau dépend avant tout de la qualité des données sources. Il peut suffire qu’une seule valeur soit mal renseignée pour que la colonne soit mal typée.
Il est important de ne pas confondre le type de données avec le format d’affichage ; pour préciser les relations entre ces deux notions, disons que le type est la nature essentielle de la donnée, et que les formats d’affichage possibles dépendent du type. Par exemple, si la donnée « 14/03/2024 » est de type date, vous pourrez l’afficher en la formatant comme 14 mars 2024, 14.03.24 ou encore 2024-03-14 sans changer la valeur intrinsèque. À l’inverse, si la même donnée est typée comme texte, vous pourrez juste l’afficher telle quelle ; pire, si vous vous en servez pour trier, ce sera forcément par ordre alphabétique et non chronologique, ce qui veut dire que Tableau triera sur les jours en ignorant les mois et les années (par exemple la série "13/03/2025", "13/03/2026", "14/03/2024", "15/03/2023" est un ordre alphabétique).
Travail sur les types temporels
Nous allons faire quelques tests avec un fichier de données représentant...
Utiliser vos données comme dimension ou mesure
Définition
La distinction entre dimensions et mesures est essentielle dans tous les outils de data viz ou de Business Intelligence ; elle concerne la façon dont vous, en tant qu’analyste, souhaitez utiliser chaque champ de données. Restons dans les exemples commerciaux, et supposons que vous voulez calculer et représenter un chiffre d’affaires par catégorie de produits. Pour cela, vous allez utiliser deux champs, la catégorie de produits et le chiffre d’affaires, mais chacun selon un mode précis :
-
vous voulez que chaque catégorie existante soit représentée dans le résultat ;
-
vous ne voulez surtout pas voir chaque montant individuel, mais la somme des montants dépensés dans chaque catégorie.
En bases de données, on dirait que la catégorie est votre critère de regroupement (c’est-à-dire que toutes les lignes de données d’une même catégorie doivent être fusionnées en une seule ligne), tandis que le chiffre d’affaires sera le résultat de l’agrégation par somme des montants.
Si vous pratiquez le SQL, ces termes doivent vous sembler familiers : la catégorie serait placée dans une clause GROUP BY (regroupement), tandis que les montants iraient dans une fonction SUM (agrégation).
Une fois que cela est clair pour vous, il est facile de définir dimensions et mesures :
-
les données dont vous souhaitez voir les valeurs individuelles (donc utiliser comme critères de regroupement) sont les dimensions ;
-
les données que vous souhaitez agréger (généralement par somme) sont les mesures.
Les termes anglais sont dimensions et measures, la version française de Tableau est donc parfaitement alignée sur l’original. Toutefois, l’usage en informatique décisionnelle française est plutôt de traduire measures par indicateurs. Ce dernier terme n’est pas très bien choisi (les utilisateurs métier tendent à croire qu’il s’agit soit d’un tableau de bord, soit d’un champ booléen), mais il est sans doute trop tard pour changer les habitudes. Quoi qu’il en soit, retenez simplement que « mesure »...
Représenter vos données en mode continu ou discret
Les types sont relatifs à la nature des données, et Tableau les indique par des icônes. La qualification en dimension ou mesure indique l’utilisation analytique des données en valeurs détaillées ou agrégées, et Tableau l’indique par la position au-dessus ou en dessous de la ligne de séparation horizontale du volet Données. Le dernier axe de qualification concerne, lui, la façon de représenter la donnée graphiquement ; Tableau l’indique par la couleur des champs et des gélules :
-
gélules bleu pour une représentation discrète ;
-
gélules vert pour une représentation continue.
Cette notion est assez spécifique à Tableau. L’idée générale est qu’une représentation discrète présente une série de points de données séparés les uns des autres (c’est le sens de discretus en latin) : typiquement, un graphique en barres horizontales ou verticales. À l’inverse, sur une représentation continue, on passe sans interruption d’un point de donnée à un autre : typiquement, un graphique en courbes.
Il est difficile de formaliser une définition, car dans la pratique le choix entre représentation discrète ou continue peut correspondre à différents cas de figure. Disons que c’est une conceptualisation qui permet de synthétiser en une seule notion ce qui serait autrement une série d’options éparpillées dans différents menus.
Avant d’étudier les principaux cas de figure, commençons à éclaircir un peu le sujet :
-
Seules les données numériques ou temporelles peuvent être représentées de manière continue ; les données de type Chaîne (texte) ou Booléen (vrai/faux) sont forcément représentées de manière discrète.
-
Les mesures numériques sont continues par défaut, mais peuvent au besoin être représentées comme discrètes.
-
Les dimensions numériques ou temporelles peuvent être indifféremment représentées comme continues...
Autres propriétés liées à la qualification des données
Les trois catégorisations par type de données, dimension / mesure et discret / continu, même si elles sont les aspects essentiels de la qualification des données, n’épuisent pas complètement le sujet. Quelques autres propriétés peuvent en effet se paramétrer au niveau du champ de données en général (donc sur le volet Données) et seront réutilisées d’un graphique à l’autre (à l’intérieur bien sûr du même classeur) : les propriétés par défaut, les rôles et les alias.
Voici les propriétés par défaut qui concernent tous les champs :
-
Commentaire : permet d’associer un commentaire au champ, généralement pour décrire de quoi il s’agit.
-
Couleur : permet d’associer un codage couleur à un champ de données, qui sera réutilisé à l’identique sur tous les graphiques où le champ est placé sur la propriété Couleur.
-
Forme : permet d’associer des symboles (carrés, losanges, croix, etc.) à la donnée, qui sont utilisés quand le champ est placé sur la propriété Forme de l’étagère...
Exercices
Nous allons utiliser un jeu de données réelles sur les émissions de carbone à Londres de 2005 à 2014 ; ce fichier a été traduit et adapté d’un fichier en open data du gouvernement britannique, publié sur Kaggle.com (plateforme web gratuite dédiée à la data science).
Commençons par quelques informations sur le contexte : la ville de Londres (Greater London) est la plus grande ville d’Europe en termes de population (8,8 millions d’habitants en 2021). Administrativement, elle est découpée en 33 boroughs (équivalent londonien des arrondissements parisiens), qui se répartissent entre centre-ville (Inner London) et périphérie (Outer London).
Enfin, Londres est célèbre pour son smog (mélange de brouillard et de fumées), ce qui nous amène directement à la question des émissions de CO2.
Téléchargez le fichier CO2_London.xlsx depuis la page Informations générales.
Créez un nouveau classeur Tableau, et connectez-le au fichier Excel.
Avant de commencer les exercices, voici quelques explications sur les données du fichier :
-
La colonne Borough est bien sûr le nom du borough.
-
L’Année représente l’année des données (de 2005 à 2014).
-
La Source...
Solution commentée
Dans cette série, c’est bien sûr le premier exercice qui est structurant, les exercices suivants doivent vous permettre de tester et éventuellement de revoir les choix de qualification que vous avez faits initialement.
Exercice 1 : pour chacun des six champs, revoyez le type de donnée, l’utilisation en dimension ou mesure, et la représentation en mode discret ou continu. Voyez également s’il faut ajuster les autres propriétés de la donnée.
Prenons les choses champ par champ en revoyant à chaque fois le type, l’utilisation, la représentation et les autres propriétés.
Le champ Année est typé comme du texte dans Excel ; en conséquence Tableau lui a affecté le type Chaîne, ce qui a entraîné sa qualification comme dimension discrète. Faut-il conserver le type choisi par Tableau ? Cela n’aura pas de conséquence néfaste dans le cadre de cette série d’exercices ; toutefois il est raisonnable d’anticiper que nous pourrions avoir besoin de calculer des durées et des moyennes par année, et faire la soustraction 2014 - 2005 sera difficile si « 2014 » et « 2005 » sont considérées comme des textes.
Vous pouvez également être tenté(e) par le type Date. Ce serait une erreur, car ce type demande normalement une date complète, avec le mois et le jour, et pas seulement une année. Si vous le faites quand même, vous verrez que Tableau est assez tolérant, et va considérer les données 2005 comme étant celles du 1er janvier 2005, les données 2006 comme celles du 1er janvier 2006, etc. Vous devrez ensuite modifier le format d’affichage des dates pour cacher la partie « 1er janvier » et n’afficher que l’année. Quant aux éventuels calculs de durée, vous devrez les faire avec la fonction DATEDIFF, alors qu’une simple soustraction aurait dû suffire.
Intrinsèquement, les années sont des nombres entiers, la solution la plus simple et la plus efficace est donc de modifier le type en Nombre...