Blog ENI : Toute la veille numérique !
💥 Offre spéciale Bibliothèque Numérique ENI :
1 an d'accès à petit prix ! Cliquez ici
🚀 Tous nos livres, vidéos et articles en illimité ! :
Découvrez notre offre. Cliquez ici

Préparer vos données pour en exploiter le potentiel

Qualité des données : rappel

La qualité des données est un élément fondamental à considérer avant d’aborder les techniques de nettoyage et de traitement des données. Pour toute organisation cherchant à prendre des décisions éclairées et à tirer le meilleur parti de ses informations, cet aspect ne peut être négligé. Toutes les procédures que nous examinerons dans ce chapitre ont un seul but : mettre à la disposition des différentes équipes des données fiables !

1. Qu’est-ce que la qualité des données ?

La qualité des données reflète la capacité d’une organisation à maintenir l’exactitude et la pérennité de ses informations au cours du temps. En tant qu’experts du domaine, nous devons fournir des données irréprochables tout en nous appuyant sur des indicateurs clairs et facilement interprétables. Nous commencerons par examiner en détail les six critères qui définissent la qualité des données (QDD).

Cette notion englobe à la fois les caractéristiques intrinsèques des données et les méthodes mises en œuvre pour les garantir. En essence, la qualité des données se définit par leur aptitude à servir l’usage auquel elles sont destinées.

Une initiative de qualité des données s’inscrit dans la durée et s’intègre à l’ensemble du cycle de vie des données. Elle requiert une évolution culturelle dans la façon dont l’organisation gère ses données. C’est une approche globale qui impacte l’ensemble de l’entreprise et ses pratiques quotidiennes.

Il est important de noter que des données erronées en entrée d’un processus produiront inévitablement des résultats inexacts en sortie. Par conséquent, une stratégie fondée sur des données de piètre qualité aboutira à des décisions inefficaces, avec des conséquences directes sur le retour sur investissement.

images/03_01.png

Crédits : https://dataedo.com/

2. Pourquoi est-ce que la QDD est importante ?

La qualité...

Nettoyage de données

1. Premiers pas avec la librairie pandas

Pandas est une bibliothèque Python puissante et polyvalente, conçue pour la manipulation et l’analyse des données. Elle a été développée par Wes McKinney, un chercheur qui a commencé à construire ce qui allait devenir Pandas. Le nom « pandas » est dérivé du terme « Panel Data », un terme d’économétrie pour les jeux de données qui comprennent des observations sur plusieurs périodes. 

Pandas est particulièrement adaptée pour travailler avec des données tabulaires, similaires à une feuille de calcul Excel ou une table SQL. Les principales structures de données gérées par cette bibliothèque sont les séries, qui stockent des données selon une dimension, et les DataFrames, qui stockent des données selon deux dimensions (lignes et colonnes). Ces structures de données facilitent la manipulation des données, ainsi que le nettoyage, le prétraitement, l’analyse et la visualisation.

L’utilisation de pandas est largement répandue dans le domaine de l’analyse de données. Elle est souvent présentée comme l’outil idéal pour manipuler des données qui peuvent être organisées sous forme de lignes et de colonnes. De plus, la maîtrise de pandas est une compétence recherchée par les employeurs, car de nombreuses entreprises de tous secteurs utilisent de plus en plus la science des données.

Il existe plusieurs alternatives à pandas, on peut citer notamment polars, dask et cudf. Chacune de ces solutions présente un intérêt, en particulier la vitesse de traitement par rapport à pandas. Nous n’en parlerons pas dans cet ouvrage, car Pandas demeure la bibliothèque la plus utilisée pour l’analyse de données en Python. Sa richesse et sa polyvalence, ainsi que sa large adoption dans la communauté d’analystes de données, en font un outil incontournable.

2. Présentation de notre jeu de données

Au cours de ce chapitre, nous allons travailler avec un jeu de données disponible en libre accès sur la plateforme Kaggle.

Le commerce électronique...

Les quatre piliers de la manipulation de données avec pandas

Filtrer, unir, ordonner et grouper : ces quatre opérations constituent les bases de la manipulation de données avec Pandas. Elles permettent d’explorer, de transformer et de synthétiser des jeux de données de manière efficace, ouvrant ainsi la porte à une analyse approfondie et à la découverte de connaissances.

  • Filtrage : affinez votre focus en sélectionnant des sous-ensembles précis de données pertinents pour votre analyse.

  • Union : combinez plusieurs jeux de données pour obtenir une vue holistique et explorez les relations entre différentes sources d’information.

  • Tri : organisez et hiérarchisez les données pour faciliter l’analyse et la visualisation.

  • Regroupement : regroupez les données par similarités et explorez les tendances et les agrégations à différents niveaux de granularité.

Ces quatre opérations essentielles vous permettront de modeler facilement vos jeux de données et de valoriser au mieux vos données pour en extraire des enseignements précieux.

1. Filtrage avancé d’un DataFrame avec les opérateurs binaires

Filtrer consiste à sélectionner un sous-ensemble de lignes d’un DataFrame qui vérifient une condition. Le filtrage correspond à ce qu’on appelait jusqu’à maintenant l’indexation conditionnelle, mais le terme « filtrage » est celui qui est le plus utilisé dans la gestion de bases de données.

Nous ne pouvons pas utiliser les opérateurs logiques and et or pour filtrer sur plusieurs conditions. En effet, ces opérateurs créent de l’ambiguïté que pandas n’est pas capable de gérer pour filtrer les lignes.

Les opérateurs adaptés au filtrage sur plusieurs conditions sont les opérateurs binaires :

  • l’opérateur ’et’ : &

  • l’opérateur ’ou’ : |

  • l’opérateur ’non’ : - ou ~

Ces opérateurs sont semblables aux opérateurs logiques, mais leurs méthodes d’évaluation ne sont pas les mêmes.

L’opérateur &

L’opérateur & sert à filtrer...