Maîtrisez la Data Science avec Python

Éric DEMANGEL

Les points forts du livre :

Un parcours d’apprentissage structuré et progressif, adapté à tous les niveaux,
Une maîtrise pratique des outils Python incontournables en data science,
Une initiation à l’intelligence artificielle via des applications concrètes de Machine Learning

Consulter des extraits du livre en ligne Aperçu de la version papier

Niveau Confirmé à Expert
Nombre de pages 512 pages
Parution mars 2025

Niveau Confirmé à Expert
Parution mars 2025

Présentation

Maîtriser les techniques de modélisation et comprendre les données, véritable carburant de l’intelligence artificielle, sont devenues des compétences clés dans une société transformée par la révolution numérique.

Que vous soyez débutant ou en quête de nouvelles compétences, ce livre vous guide dans l’univers de la data science, une discipline qui transcende les frontières de la programmation pour extraire des informations pertinentes et concevoir des systèmes capables d’offrir des solutions concrètes dans tous les domaines.

Conçu comme un véritable mode d’emploi, ce livre vous accompagne à travers toutes les étapes du traitement et de l’analyse des données : collecte, préparation, exploration, modélisation prédictive et mise en application. Grâce à Python et ses bibliothèques incontournables, vous découvrirez une méthode claire et des exemples concrets pour transformer vos données en savoir et en valeur, de manière à vous permettre d’appliquer immédiatement les concepts abordés.

Vous apprendrez à :

• comprendre les mécanismes fondamentaux de la data science ;

• importer, manipuler et visualiser des données complexes avec des outils comme Pandas, Seaborn et Matplotlib ;

• analyser les variables avec Scipy et Statmodels ;

• appliquer des algorithmes de Machine Learning pour résoudre des problématiques réelles sur des données classiques, des images ou du texte ;

• automatiser et structurer vos analyses dans un environnement riche et accessible.

Caractéristiques

Livre (broché) - 17 x 21 cm
ISBN : 978-2-409-04872-2
EAN : 9782409048722
Ref. ENI : EIPYTDATA

Téléchargements

Des fichiers complémentaires (1 639 Ko)

Table des matières

Avant-propos

Introduction

Introduction

Des données partout
1. 1. Provenance des données
  1. a. Le Web
  2. b. Les données privées
  3. c. Créons nos propres données
2. 2. Forme des données
3. 3. Volumétrie
La data science
1. 1. Feature engineering
  1. a. La collecte des données
  2. b. Le nettoyage
  3. c. L’exploration
  4. d. L’analyse
2. 2. La modélisation
  1. a. La sélection et la préparation desdonnées
  2. b. La séparation des données
  3. c. La phase d’expérimentation et d’évaluation
  4. d. La finalisation
  5. e. La présentation des résultats
  6. f. La maintenance
Python
1. 1. Les atouts naturels de Python
2. 2. Les librairies spécialisées
3. 3. Plus encore

Bases de Python et environnements

Les notebooks
1. 1. Principe du notebook
  1. a. Fonctionnement par cellule
  2. b. Possibilité d’annoter le code
  3. c. Affichage de contenu interactif
2. 2. Comment créer un notebook
  1. a. Installation directe du module Jupyter
  2. b. Installation de la suite Anaconda
  3. c. Google Colaboratory
Commandes de base
1. 1. Acquisition des données
  1. a. Définition du dossier de travail
  2. b. Accès aux données
2. 2. Définition des données
  1. a. Changement du type
  2. b. Gestion des dates
  3. c. Taille du stockage par type
3. 3. Structuration du code
  1. a. PEP8
  2. b. Optimisation du code
Utilisation avancée
1. 1. Gestion des librairies
  1. a. Installation
  2. b. Mise à jour
  3. c. Suppression
2. 2. L’environnement virtuel
  1. a. Déploiement d’un environnement virtuel
  2. b. Utilisation d’un environnement virtuel dansun notebook
3. 3. Les notions utiles pour la data science
  1. a. Le pipeline
  2. b. La programmation orientée objet (POO)
  3. c. Les décorateurs
  4. d. La gestion des erreurs

Préparer les données avec Pandas et Numpy

Pandas, la bibliothèque Python incontournable pour manipuler les données
1. 1. Installation
2. 2. Structure et type de données
3. 3. Possibilités offertes
Numpy, le pilier du calcul numérique
1. 1. La structure ndarray
  1. a. Une structure homogène
  2. b. L’indexation
  3. c. La modification des structures
  4. d. La vectorisation
2. 2. La puissance au service du calcul scientifique
3. 3. Les possibilités offertes par Numpy
  1. a. Opérations mathématiques de base
  2. b. Algèbre linéaire et calculs statistiques
  3. c. Création d’images
Collecte des données
1. 1. Acquisition et contrôle des données
  1. a. Les formats classiques des fichiers de données
  2. b. L’acquisition de données en pratique
2. 2. Manipulations avancées des données
  1. a. Concaténation
  2. b. Fusion
  3. c. Agrégation
  4. d. Export des données
Nettoyage des données
1. 1. Sélection des données
2. 2. Contrôle de la qualité des données
  1. a. Définition du bon type de données
  2. b. Gestion des problèmes d’encodage
3. 3. Identification des valeurs atypiques ou aberrantes
  1. a. Z-score et méthode des quartiles
  2. b. Local Outlier Factor
4. 4. Gestion des outliers
  1. a. Suppression des valeurs
  2. b. Changement de la distribution
  3. c. Conservation des valeurs aberrantes
5. 5. Imputations
  1. a. Imputation par la valeur la plus fréquente(modale)
  2. b. Imputation par la moyenne ou la médiane
  3. c. Imputation par régression
  4. d. Imputation basée sur les plus proches voisins(KNN)
  5. e. Autres types d’imputations

DataViz avec Matplotlib, Seaborn, Plotly

Introduction à la visualisation des données
1. 1. La visualisation au service de la compréhension
2. 2. La méthodologie
  1. a. Contextualisation des recherches
  2. b. Public concerné
  3. c. Les nombreuses possibilités de graphiques
  4. d. Règles à respecter concernant lesgraphiques
Les principales bibliothèques pour la visualisation : Matplotlib, Seaborn et Plotly-Express
1. 1. Matplotlib
  1. a. Présentation de Matplotlib
  2. b. Premiers pas avec Matplotlib
  3. c. Personnalisation et options avancées
2. 2. Seaborn
  1. a. Présentation de Seaborn
  2. b. Simplification de l’exploration des relationscomplexes
3. 3. Plotly.express
  1. a. La version simplifiée de Plotly
  2. b. L’interactivité de Plotly-Express
  3. c. L’avenir de Plotly-Express
Les différents types de graphiques
1. 1. Les enjeux
  1. a. Le cheminement vers le bon graphique
  2. b. Les postes importants
  3. c. Les contraintes
2. 2. Les graphiques univariés
  1. a. Graphiques univariés pour les donnéesnumériques
  2. b. Graphiques univariés pour les donnéescatégorielles
  3. c. Récapitulatif
3. 3. Les graphiques bivariés et multivariés
  1. a. Graphiques bivariés portant sur des variablesde même nature
  2. b. Graphiques bivariés portant sur des variablesde natures différentes
  3. c. Graphiques multivariés
4. 4. Les autres types de graphiques
  1. a. La cartographie
  2. b. Les données temporelles
  3. c. Les autres solutions graphiques

Analyse des données

Introduction à l’analyse des données
1. 1. Définition et rôle de l’analysede données
2. 2. Enjeux
  1. a. Innovation et créativité
  2. b. Prise de conscience des contraintes spécifiques
  3. c. Amélioration de la prise de décision
Statistiques descriptives et inférentielles
1. 1. Description des variables quantitatives
  1. a. Mesures de tendance centrale
  2. b. Mesures de dispersion
  3. c. La distribution
2. 2. Description des variables catégorielles
  1. a. Fréquence, proportion et gestion des modalitésrares
  2. b. Tableau de contingence
  3. c. Indices de diversité
3. 3. Statistiques inférentielles
  1. a. Concepts de base
  2. b. Hypothèses nulles et alternatives
  3. c. P-value
  4. d. Significativité
  5. e. Marge d’erreur et impact des effectifs surl’intervalle de confiance
Modules Python pour l’analyse de données
1. 1. Les capacités limitées des modulesclassiques
2. 2. Les modules spécialisés en statistiques
  1. a. Scipy
  2. b. Statmodels
Tests statistiques de normalité
1. 1. Contexte et objectif
2. 2. Les Q-Q plots
  1. a. Définition et tracé du graphique
  2. b. Interprétation
3. 3. Principe de fonctionnement généraldes tests de normalité
  1. a. Principe de fonctionnement
  2. b. Les différents tests de normalité
Tests statistiques bivariés
1. 1. Tests bivariés entre des variables de mêmenature
  1. a. Corrélations entre variables numériques
  2. b. Tests d’indépendance entre variablescatégorielles
2. 2. Tests bivariés entre des variables de naturedifférente
  1. a. Tests de comparaison à deux modalités
  2. b. Tests de comparaison à trois modalitésou plus
  3. c. Conclusions sur les tests bivariés
Analyse multivariée
1. 1. Analyse de la variance multivariée (MANOVA)
  1. a. Présentation et champs d’applications
  2. b. Cas pratique d’utilisation
2. 2. Analyse en composantes multiples (ACM)
3. 3. Analyse en composantes principales (ACP)
  1. a. Un des piliers de la data science
  2. b. Utilisation sur un cas pratique
  3. c. L’éboulis des valeurs propres
  4. d. Le cercle des corrélations
  5. e. Le graphique des individus

Le Machine Learning avec Scikit-Learn

Introduction au Machine Learning : concepts et types de modèles
1. 1. L’apprentissage non supervisé
  1. a. Définition
  2. b. La réduction dimensionnelle
  3. c. Le clustering
2. 2. L’apprentissage supervisé
  1. a. Introduction
  2. b. Régression
  3. c. Classification
3. 3. Le texte et l’image
  1. a. Définitions des concepts
  2. b. Le texte et le NLP
  3. c. Le traitement des images
Présentation de Scikit-Learn, la bibliothèque Python pour la data science
1. 1. Une offre simple et complète de fonctionnalités
2. 2. Des méthodes communes aux différentesfonctions
  1. a. La méthode fit()
  2. b. Les méthodes transform et fit_transform
  3. c. La méthode predict
  4. d. La méthode score()
  5. e. Les méthodes get_params et set_params
3. 3. Le soutien de la licence BSD et d’une communauté active
Les grandes étapes d’un projet de Machine Learning
1. 1. La préparation des données
  1. a. La séparation des variables explicativesde la variable cible
  2. b. La séparation entre données d’entraînementet données de test
  3. c. Les transformations des variables
  4. d. La mise en œuvre ciblée des transformations
  5. e. Finalisation de la préparation des données
2. 2. L’expérimentation
  1. a. Définition des métriques pour l’évaluation
  2. b. Les algorithmes d’optimisation d’hyperparamètres
  3. c. Le modèle de base (DummyRegressor et DummyClassifier)
  4. d. Tests des divers algorithmes avec différentescombinaisons de paramètres
  5. e. L’évaluation et le choix final
Conclusions sur la modélisation

L’apprentissage supervisé

Introduction
Les familles d’algorithmes
1. 1. Les algorithmes linéaires
  1. a. Les régressions
  2. b. Les régressions régularisées
  3. c. Les machines à vecteur de support (SVM)
2. 2. Les algorithmes semi-linéaires (modèles à noyau)
3. 3. Les algorithmes non linéaires
  1. a. Les plus proches voisins (KNN)
  2. b. L’arbre de décision
  3. c. Les méthodes ensemblistes
  4. d. Les réseaux de neurones
La régression en pratique
1. 1. Préparation des données
  1. a. Import des données
  2. b. Séparation des variables explicatives dela variable cible
  3. c. Séparation entre données d’entraînementet de test
  4. d. Les transformations des variables
  5. e. Finalisation de la préparation des données
2. 2. Fonction de calcul et d’affichage des régressions
3. 3. La modélisation d’une régression
  1. a. Modèle de base (DummyRegressor)
  2. b. Test des algorithmes concurrents
  3. c. Le pipeline
La classification en pratique
1. 1. Préparation des données
  1. a. Import des données
  2. b. Séparation entre les variables explicativeset la variable cible
  3. c. Séparation entre données d’entraînementet de test
  4. d. Transformation des colonnes
  5. e. Remise en forme des noms
  6. f. Ajustement du type des variables
2. 2. Fonction de calcul et d’affichage des classifications
3. 3. Expérimentations
  1. a. Modèle de base (DummyClassifier)
  2. b. Algorithmes concurrents
Conclusion

L’apprentissage non supervisé

Introduction
La réduction dimensionnelle
1. 1. L’ACP en pratique pour analyser
  1. a. Préparation des données
  2. b. L’éboulis des valeurs propres
  3. c. Le cercle des corrélations
  4. d. Le graphique des individus
2. 2. L’ACP en pratique pour modéliser
3. 3. Les autres algorithmes de réduction dimensionnelle
Le clustering
1. 1. La pratique du clustering avec le K-means
  1. a. Acquisition et préparation des données
  2. b. Les tests pour déterminer le nombre de clusters
  3. c. Choix du clustering
  4. d. Le score ARI
2. 2. Les autres algorithmes de clustering
  1. a. GMM
  2. b. Meanshift
  3. c. DBSCAN

Modéliser le texte et l’image

La modélisation du texte
1. 1. Les modules du NLP
  1. a. NLTK
  2. b. TextBlob
  3. c. spaCy
2. 2. Mise en pratique de la NLP
  1. a. Prétraitement des données
  2. b. Les extracteurs de caractéristiques
  3. c. La modélisation
3. 3. Introduction aux modèles avancésen NLP
  1. a. Les représentations de mots
  2. b. L’encodage des phrases
  3. c. Transformers et modèles contextuels
  4. d. Les Larges Languages Models (LLM)
La modélisation des images
1. 1. Les solutions de Machine Learning destinéesaux images
  1. a. Pillow pour s’initier au prétraitement
  2. b. Scikit-image
  3. c. OpenCV
2. 2. Méthodes de modélisation des images
  1. a. Segmenter
  2. b. Détecter
  3. c. Classifier
3. 3. Aller plus loin avec les CNN
  1. a. Principe de fonctionnement du CNN
  2. b. Transfer learning
  3. c. Initiation à Tensorflow et Keras
  4. d. Exemples d’utilisation des CNN

Mener un projet de data science avec Python

Introduction
Le sujet : déterminer le prix des véhicules d’occasion
1. 1. Les données
2. 2. Les étapes du projet
  1. a. Le notebook de l’EDA
  2. b. Le notebook de modélisation
  3. c. Les aléas des données
La modélisation en pratique
1. 1. Notebook 1 : EDA
  1. a. Acquisition et premiers contrôles des données
  2. b. Nettoyage des données
  3. c. Exploration et analyse
2. 2. Notebook 2 : modélisation simple
  1. a. Acquisition et sélection des données
  2. b. Modélisation
  3. c. Résultats
3. 3. Notebook 3 : modélisation mixte
  1. a. Acquisition et sélection des données
  2. b. Modélisation
  3. c. Résultats
Conclusion

Conclusion

Le rôle central des données et de leur compréhension
Des évolutions qui transforment et accélèrent tout
1. 1. L’évolution du matérieltechnologique
2. 2. L’amélioration des modèles
3. 3. La diffusion dans le grand public et la prise en compteprogressive des enjeux
Importance de la théorie et invitation à l’exploration

Auteur

Éric DEMANGEL

Eric DEMANGEL est data scientist freelance depuis 2020 après avoir accumulé 11 années d'expérience en tant que data analyste dans une société d’études de marché. Passionné par l'enseignement, il a également endossé le rôle de mentor en data, avec lequel il guide ses étudiants avec une curiosité insatiable et un désir constant de transformer les données en savoir. A travers ses enseignements, il s'efforce de rendre ce domaine complexe accessible à tous, en simplifiant ses concepts et en partageant son expertise de manière claire et pédagogique.