Les notebooks

Ce chapitre n’a pas pour but d’initier à Python, mais plutôt de préparer un environnement de travail fonctionnel. Il est à considérer comme une mise au point avant de poursuivre. Pour ceux qui connaissent déjà les notebooks et sont utilisateurs réguliers de Python, le chapitre suivant peut être abordé directement. Pour tous les autres, nous allons commencer par présenter un support alternatif de programmation que nous utiliserons : le notebook.

1. Principe du notebook

Comparé à un programme classique contenant du code, le notebook offre une approche révolutionnaire de la programmation en apportant de l’interactivité au cadre austère habituel. Voici à quoi il ressemble :

a. Fonctionnement par cellule

Le notebook fonctionne par cellule. C’est la première marque car chaque cellule peut être lancée indépendamment des autres. Cette approche est très pertinente en termes de pédagogie car elle va permettre à l’apprenant de lancer spécifiquement la ou les cellules souhaitées et faciliter la manipulation. De plus, chaque cellule peut être de deux natures différentes et contenir soit du code soit du texte.

b. Possibilité d’annoter le code

Le texte va apporter cette deuxième couche d’interactivité...

Commandes de base

Nous allons ici revisiter certains concepts fondamentaux de Python qui revêtent une importance cruciale dans le cadre de l’utilisation de Python en data science.

1. Acquisition des données

Avant de débuter toute analyse de données, il est primordial de les acquérir. Voici donc les mesures à prendre pour mener à bien cette première étape.

a. Définition du dossier de travail

Commençons déjà par définir le dossier sur lequel nous travaillerons. Cette petite routine facilitera notre tâche en évitant de donner le chemin complet à chaque fois que nous souhaitons accéder à un fichier. La définition du dossier de travail passe par le module os. Nous le définissons à l’aide de la commande os.chdir et validons que cela a bien fonctionné grâce à la commande os.getcwd().

Maintenant que le dossier est défini, le programme pointe vers lui et il n’est plus nécessaire de renseigner son chemin complet.

Tous les exemples de fichiers ont été stockés dans le sous-dossier DATA donc le chemin commencera toujours par DATA/nom_fichier.type.fichier.

b. Accès aux données

L’accès aux données peut s’effectuer de manière assez simple. Voici quelques exemples pour lire les formats de données les plus courants, en commençant par le format CSV, qui est un format texte avec un séparateur. Il est essentiel de connaître le séparateur pour que le fichier soit correctement lu. Par défaut, la virgule est utilisée pour les fichiers américains tandis que le point-virgule est utilisé pour les fichiers français. Pour faciliter ces opérations, nous utiliserons la bibliothèque Pandas, que nous étudierons en détail dans le chapitre Préparer les données avec Pandas et Numpy.

Lire des fichiers CSV

import pandas as pd

my_comma_csv = pd.read_csv("DATA/csv_anglais.csv")

my_semicolon_csv = pd.read_csv("DATA/csv_fr.csv",sep=";")

Lire des fichiers Excel

La lecture des fichiers Excel nécessite au préalable l’installation du module xlrd. Voici comment l’installer (à effectuer depuis l’invite de commande) :

pip install xlrd...

Utilisation avancée

Pratiquer la data science nécessite la maîtrise de certaines fonctionnalités plus avancées de Python que nous allons nous attacher à définir.

L’import des différentes librairies nécessaires à la réalisation de notre programme arrive en premier dans notre code. Il est important de commencer par voir comment les manipuler.

1. Gestion des librairies

Les librairies sont des ensembles de fonctions Python facilitant la gestion de problèmes complexes. Elles allègent considérablement l’écriture du code et nous permettent de produire des programmes que nous ne pourrions pas mettre en œuvre sans leur concours. Avant de voir leur fonctionnement, soulignons qu’une librairie évolue au cours du temps, qu’elle fait souvent appel à d’autres librairies qui évoluent aussi et il n’est pas rare de rencontrer des problèmes de compatibilité entre elles. C’est pourquoi savoir comprendre et maintenir cet écosystème est une étape peu compliquée mais obligatoire pour pouvoir mener à bien notre tâche.

Les termes « bibliothèque », « librairie » et « module » seront utilisés de manière interchangeable pour désigner les librairies.

a. Installation

L’installation d’un module est une opération très courante. Il suffit d’ouvrir une invite de commande, quelle que soit la plateforme, et de taper (attention à bien mettre pip en minuscules) :

pip install nom_du_module

Voici une illustration en passant par Windows PowerShell sous Windows :

Il convient de préciser ici que sous Windows, la commande doit être lancée dans le sous-dossier Scripts du dossier du programme Python. Nous constaterons, pour nous en assurer, qu’il existe un fichier nommé pip.exe.

b. Mise à jour

Comme les librairies évoluent, il peut être nécessaire de les mettre à jour. Connaître la version d’une librairie peut se faire de deux façons :

Soit en les affichant la version de toutes les librairies présentes :

pip freeze

Soit en demandant les détails d’une librairie en particulier via la commande suivante :

pip show <nom_du_module>...

Bases de Python et environnements