DataViz avec Matplotlib, Seaborn, Plotly
Introduction à la visualisation des données

Nuage de mots des termes techniques et informatiques utilisés pour ce chapitre
La visualisation est un élément fondamental dans l’analyse de données. Souvent qualifiée de data mining ou data exploration, cette démarche consiste à explorer les données dans le but de découvrir des modèles, des tendances, des relations voire des informations cachées permettant de comprendre pleinement le sujet d’étude.
1. La visualisation au service de la compréhension
À la manière d’un détective, nous allons chercher à comprendre les informations contenues en nous appuyant sur toute une panoplie de graphiques comme autant d’indices. Le choix est vaste et il est important de sélectionner les plus pertinents selon les cas. Tout l’art, finalement, consiste à représenter de manière claire et compréhensible des informations complexes. Cela demande quelques connaissances de base, de respecter certaines règles et surtout, de la pratique.
Regardons ensemble comment nous organiser pour mener au mieux nos recherches.
2. La méthodologie
a. Contextualisation des recherches
L’exploration est toujours menée dans un but. Il ne s’agit pas de créer des visuels au hasard. Avant de se lancer, il est important de définir...
Les principales bibliothèques pour la visualisation : Matplotlib, Seaborn et Plotly-Express
1. Matplotlib
a. Présentation de Matplotlib
Matplotlib est une bibliothèque de visualisation de données open source, développée à l’origine par John D. Hunter en 2003. Depuis ses débuts, elle est devenue l’une des plus populaires de l’écosystème Python pour la visualisation de données. Elle est souvent considérée comme primordiale pour ceux qui souhaitent s’initier à la visualisation en Python.
Matplotlib offre une grande variété de fonctionnalités et de possibilités de personnalisations pour créer différents types de graphiques comme des histogrammes, des nuages de points, des diagrammes en barres, des boîtes à moustaches, et bien d’autres.
Au cœur de Matplotlib se trouve pyplot, un sous-module qui fournit une interface simplifiée pour créer des graphiques et des visualisations avec Matplotlib. L’utilisation de pyplot est une étape fondamentale dans l’apprentissage de Matplotlib, car c’est à travers ce module que la plupart des graphiques sont créés et manipulés. Nous rencontrerons quasiment toujours la façon suivante de l’importer :
import matplotlib.pyplot as plt
L’alias plt est largement utilisé et il est vivement conseillé de l’utiliser.
Outre son large éventail de possibilités graphiques, la bibliothèque interagit parfaitement avec Numpy ou Pandas et elle fournit les fonctionnalités de base à Seaborn.
b. Premiers pas avec Matplotlib
Nous allons tracer un premier graphique tout simple avec Matplotlib nécessitant quatre étapes : import, données, tracé et affichage.
# 1 / Import de Matplotlib
import matplotlib.pyplot as plt # Attention à ne pas mettre de
majuscules
# 2 / Nos données
x = [1, 2, 3, 4, 5]
y = [2, 5, 8, 3, 12]
# 3 / Tracé du graphique
plt.plot(x, y)
# 4 / Affichage
plt.show() # Cette commande demande l'affichage
plt.show() peut être remplacé par « ; ». Il doit survenir à la fin du programme.

À ce stade, nous n’avons...
Les différents types de graphiques
1. Les enjeux
a. Le cheminement vers le bon graphique
Le choix du bon type de graphique pour représenter un ensemble de données n’est pas toujours évident. Il est essentiel de commencer par définir clairement l’objectif du graphique et de s’assurer que nous avons une compréhension approfondie du sujet à traiter. Cette étape de recherche et de réflexion participe souvent à renforcer notre connaissance du problème. Ensuite, il est crucial de sélectionner le type de graphique le plus approprié parmi de multiples options disponibles, en veillant à ce qu’il réponde efficacement à nos questions. Enfin, une attention particulière doit être accordée à la finalisation et à la mise en forme du graphique, car ces éléments viennent renforcer le message qu’il véhicule.
b. Les postes importants
La création d’un graphique efficace repose avant tout sur la simplicité et la clarté. Il est primordial que l’information soit accessible immédiatement, révélant ainsi tous les aspects du sujet abordé. Au-delà du simple choix du type de graphique, il convient de valoriser la recherche des bonnes couleurs, d’une police d’écriture bien lisible, ainsi que toute autre démarche visant à garantir une mise en forme claire et aérée. Le graphique ne doit pas être considéré isolément, mais comme un tout cohérent où chaque élément, du fond à la forme, contribue à la transmission efficace de l’information.
c. Les contraintes
Lors de la création des graphiques, il sera nécessaire de composer avec certaines contraintes.
Contraintes d’échelle
Parmi celles-ci, les problèmes d’échelles sont fréquents, notamment lorsque des valeurs extrêmes viennent perturber la disposition des autres points, les écrasant dans un coin du graphique. Pour remédier au problème, l’augmentation de la taille du graphique n’est pas toujours possible en raison de contraintes d’espace, ce qui peut nous amener à modifier l’échelle des axes. Ce changement n’est cependant...