Accédez en illimité à
tous nos livres & vidéos, sur l'IA, le dev, les réseaux... Cliquez ici
Bibliothèque Numérique ENI :
tous nos livres & vidéos, en accès illimité 24h/24. Cliquez ici
  1. Livres & vidéos
  2. Maîtrisez la Data Science avec Python -

Maîtrisez la Data Science avec Python

Informations

Livraison possible dès le 07 avril 2025
  • Livraison à partir de 0,01 €
  • Version en ligne offerte pendant 1 an
Livres rédigés par des auteurs francophones et imprimés à Nantes

Caractéristiques

  • Livre (broché) - 17 x 21 cm
  • ISBN : 978-2-409-04872-2
  • EAN : 9782409048722
  • Ref. ENI : EIPYTDATA

Informations

  • Consultable en ligne immédiatement après validation du paiement et pour une durée de 10 ans.
  • Version HTML
Livres rédigés par des auteurs francophones et imprimés à Nantes

Caractéristiques

  • HTML
  • ISBN : 978-2-409-04873-9
  • EAN : 9782409048739
  • Ref. ENI : LNEIPYTDATA
Maîtriser les techniques de modélisation et comprendre les données, véritable carburant de l’intelligence artificielle, sont devenues des compétences clés dans une société transformée par la révolution numérique. Que vous soyez débutant ou en quête de nouvelles compé­tences, ce livre vous guide dans l’univers de la data science, une discipline qui transcende les frontières de la programma­tion pour extraire des informations pertinentes et concevoir des systèmes capables d’offrir des solutions...
Consulter des extraits du livre en ligne Aperçu du livre papier
  • Niveau Confirmé à Expert
  • Nombre de pages 512 pages
  • Parution mars 2025
  • Niveau Confirmé à Expert
  • Parution mars 2025
Maîtriser les techniques de modélisation et comprendre les données, véritable carburant de l’intelligence artificielle, sont devenues des compétences clés dans une société transformée par la révolution numérique.

Que vous soyez débutant ou en quête de nouvelles compé­tences, ce livre vous guide dans l’univers de la data science, une discipline qui transcende les frontières de la programma­tion pour extraire des informations pertinentes et concevoir des systèmes capables d’offrir des solutions concrètes dans tous les domaines.

Conçu comme un véritable mode d’emploi, ce livre vous ac­compagne à travers toutes les étapes du traitement et de l’analyse des données : collecte, préparation, exploration, modélisation prédictive et mise en application. Grâce à Python et ses bibliothèques incontournables, vous découvrirez une méthode claire et des exemples concrets pour transformer vos données en savoir et en valeur, de manière à vous per­mettre d’appliquer immédiatement les concepts abordés.

Vous apprendrez à :

• comprendre les mécanismes fondamentaux de la data science ;

• importer, manipuler et visualiser des données complexes avec des outils comme Pandas, Seaborn et Matplotlib ;

• analyser les variables avec Scipy et Statmodels ;

• appliquer des algorithmes de Machine Learning pour résoudre des problématiques réelles sur des données clas­siques, des images ou du texte ;  

• automatiser et structurer vos analyses dans un environne­ment riche et accessible.

Téléchargements

Avant-propos
  1. Introduction
Introduction
  1. Des données partout
    1. 1. Provenance des données
      1. a. Le Web
      2. b. Les données privées
      3. c. Créons nos propres données
    2. 2. Forme des données
    3. 3. Volumétrie
  2. La data science
    1. 1. Feature engineering
      1. a. La collecte des données
      2. b. Le nettoyage
      3. c. L’exploration
      4. d. L’analyse
    2. 2. La modélisation
      1. a. La sélection et la préparation desdonnées
      2. b. La séparation des données
      3. c. La phase d’expérimentation et d’évaluation
      4. d. La finalisation
      5. e. La présentation des résultats
      6. f. La maintenance
  3. Python
    1. 1. Les atouts naturels de Python
    2. 2. Les librairies spécialisées
    3. 3. Plus encore
Bases de Python et environnements
  1. Les notebooks
    1. 1. Principe du notebook
      1. a. Fonctionnement par cellule
      2. b. Possibilité d’annoter le code
      3. c. Affichage de contenu interactif
    2. 2. Comment créer un notebook
      1. a. Installation directe du module Jupyter
      2. b. Installation de la suite Anaconda
      3. c. Google Colaboratory
  2. Commandes de base
    1. 1. Acquisition des données
      1. a. Définition du dossier de travail
      2. b. Accès aux données
    2. 2. Définition des données
      1. a. Changement du type
      2. b. Gestion des dates
      3. c. Taille du stockage par type
    3. 3. Structuration du code
      1. a. PEP8
      2. b. Optimisation du code
  3. Utilisation avancée
    1. 1. Gestion des librairies
      1. a. Installation
      2. b. Mise à jour
      3. c. Suppression
    2. 2. L’environnement virtuel
      1. a. Déploiement d’un environnement virtuel
      2. b. Utilisation d’un environnement virtuel dansun notebook
    3. 3. Les notions utiles pour la data science
      1. a. Le pipeline
      2. b. La programmation orientée objet (POO)
      3. c. Les décorateurs
      4. d. La gestion des erreurs
Préparer les données avec Pandas et Numpy
  1. Pandas, la bibliothèque Python incontournable pour manipuler les données
    1. 1. Installation
    2. 2. Structure et type de données
    3. 3. Possibilités offertes
  2. Numpy, le pilier du calcul numérique
    1. 1. La structure ndarray
      1. a. Une structure homogène
      2. b. L’indexation
      3. c. La modification des structures
      4. d. La vectorisation
    2. 2. La puissance au service du calcul scientifique
    3. 3. Les possibilités offertes par Numpy
      1. a. Opérations mathématiques de base
      2. b. Algèbre linéaire et calculs statistiques
      3. c. Création d’images
  3. Collecte des données
    1. 1. Acquisition et contrôle des données
      1. a. Les formats classiques des fichiers de données
      2. b. L’acquisition de données en pratique
    2. 2. Manipulations avancées des données
      1. a. Concaténation
      2. b. Fusion
      3. c. Agrégation
      4. d. Export des données
  4. Nettoyage des données
    1. 1. Sélection des données
    2. 2. Contrôle de la qualité des données
      1. a. Définition du bon type de données
      2. b. Gestion des problèmes d’encodage
    3. 3. Identification des valeurs atypiques ou aberrantes
      1. a. Z-score et méthode des quartiles
      2. b. Local Outlier Factor
    4. 4. Gestion des outliers
      1. a. Suppression des valeurs
      2. b. Changement de la distribution
      3. c. Conservation des valeurs aberrantes
    5. 5. Imputations
      1. a. Imputation par la valeur la plus fréquente(modale)
      2. b. Imputation par la moyenne ou la médiane
      3. c. Imputation par régression
      4. d. Imputation basée sur les plus proches voisins(KNN)
      5. e. Autres types d’imputations
DataViz avec Matplotlib, Seaborn, Plotly
  1. Introduction à la visualisation des données
    1. 1. La visualisation au service de la compréhension
    2. 2. La méthodologie
      1. a. Contextualisation des recherches
      2. b. Public concerné
      3. c. Les nombreuses possibilités de graphiques
      4. d. Règles à respecter concernant lesgraphiques
  2. Les principales bibliothèques pour la visualisation : Matplotlib, Seaborn et Plotly-Express
    1. 1. Matplotlib
      1. a. Présentation de Matplotlib
      2. b. Premiers pas avec Matplotlib
      3. c. Personnalisation et options avancées
    2. 2. Seaborn
      1. a. Présentation de Seaborn
      2. b. Simplification de l’exploration des relationscomplexes
    3. 3. Plotly.express
      1. a. La version simplifiée de Plotly
      2. b. L’interactivité de Plotly-Express
      3. c. L’avenir de Plotly-Express
  3. Les différents types de graphiques
    1. 1. Les enjeux
      1. a. Le cheminement vers le bon graphique
      2. b. Les postes importants
      3. c. Les contraintes
    2. 2. Les graphiques univariés
      1. a. Graphiques univariés pour les donnéesnumériques
      2. b. Graphiques univariés pour les donnéescatégorielles
      3. c. Récapitulatif
    3. 3. Les graphiques bivariés et multivariés
      1. a. Graphiques bivariés portant sur des variablesde même nature
      2. b. Graphiques bivariés portant sur des variablesde natures différentes
      3. c. Graphiques multivariés
    4. 4. Les autres types de graphiques
      1. a. La cartographie
      2. b. Les données temporelles
      3. c. Les autres solutions graphiques
Analyse des données
  1. Introduction à l’analyse des données
    1. 1. Définition et rôle de l’analysede données
    2. 2. Enjeux
      1. a. Innovation et créativité
      2. b. Prise de conscience des contraintes spécifiques
      3. c. Amélioration de la prise de décision
  2. Statistiques descriptives et inférentielles
    1. 1. Description des variables quantitatives
      1. a. Mesures de tendance centrale
      2. b. Mesures de dispersion
      3. c. La distribution
    2. 2. Description des variables catégorielles
      1. a. Fréquence, proportion et gestion des modalitésrares
      2. b. Tableau de contingence
      3. c. Indices de diversité
    3. 3. Statistiques inférentielles
      1. a. Concepts de base
      2. b. Hypothèses nulles et alternatives
      3. c. P-value
      4. d. Significativité
      5. e. Marge d’erreur et impact des effectifs surl’intervalle de confiance
  3. Modules Python pour l’analyse de données
    1. 1. Les capacités limitées des modulesclassiques
    2. 2. Les modules spécialisés en statistiques
      1. a. Scipy
      2. b. Statmodels
  4. Tests statistiques de normalité
    1. 1. Contexte et objectif
    2. 2. Les Q-Q plots
      1. a. Définition et tracé du graphique
      2. b. Interprétation
    3. 3. Principe de fonctionnement généraldes tests de normalité
      1. a. Principe de fonctionnement
      2. b. Les différents tests de normalité
  5. Tests statistiques bivariés
    1. 1. Tests bivariés entre des variables de mêmenature
      1. a. Corrélations entre variables numériques
      2. b. Tests d’indépendance entre variablescatégorielles
    2. 2. Tests bivariés entre des variables de naturedifférente
      1. a. Tests de comparaison à deux modalités
      2. b. Tests de comparaison à trois modalitésou plus
      3. c. Conclusions sur les tests bivariés
  6. Analyse multivariée
    1. 1. Analyse de la variance multivariée (MANOVA)
      1. a. Présentation et champs d’applications
      2. b. Cas pratique d’utilisation
    2. 2. Analyse en composantes multiples (ACM)
    3. 3. Analyse en composantes principales (ACP)
      1. a. Un des piliers de la data science
      2. b. Utilisation sur un cas pratique
      3. c. L’éboulis des valeurs propres
      4. d. Le cercle des corrélations
      5. e. Le graphique des individus
Le Machine Learning avec Scikit-Learn
  1. Introduction au Machine Learning : concepts et types de modèles
    1. 1. L’apprentissage non supervisé
      1. a. Définition
      2. b. La réduction dimensionnelle
      3. c. Le clustering
    2. 2. L’apprentissage supervisé
      1. a. Introduction
      2. b. Régression
      3. c. Classification
    3. 3. Le texte et l’image
      1. a. Définitions des concepts
      2. b. Le texte et le NLP
      3. c. Le traitement des images
  2. Présentation de Scikit-Learn, la bibliothèque Python pour la data science
    1. 1. Une offre simple et complète de fonctionnalités
    2. 2. Des méthodes communes aux différentesfonctions
      1. a. La méthode fit()
      2. b. Les méthodes transform et fit_transform
      3. c. La méthode predict
      4. d. La méthode score()
      5. e. Les méthodes get_params et set_params
    3. 3. Le soutien de la licence BSD et d’une communauté active
  3. Les grandes étapes d’un projet de Machine Learning
    1. 1. La préparation des données
      1. a. La séparation des variables explicativesde la variable cible
      2. b. La séparation entre données d’entraînementet données de test
      3. c. Les transformations des variables
      4. d. La mise en œuvre ciblée des transformations
      5. e. Finalisation de la préparation des données
    2. 2. L’expérimentation
      1. a. Définition des métriques pour l’évaluation
      2. b. Les algorithmes d’optimisation d’hyperparamètres
      3. c. Le modèle de base (DummyRegressor et DummyClassifier)
      4. d. Tests des divers algorithmes avec différentescombinaisons de paramètres
      5. e. L’évaluation et le choix final
  4. Conclusions sur la modélisation
L’apprentissage supervisé
  1. Introduction
  2. Les familles d’algorithmes
    1. 1. Les algorithmes linéaires
      1. a. Les régressions
      2. b. Les régressions régularisées
      3. c. Les machines à vecteur de support (SVM)
    2. 2. Les algorithmes semi-linéaires (modèles à noyau)
    3. 3. Les algorithmes non linéaires
      1. a. Les plus proches voisins (KNN)
      2. b. L’arbre de décision
      3. c. Les méthodes ensemblistes
      4. d. Les réseaux de neurones
  3. La régression en pratique
    1. 1. Préparation des données
      1. a. Import des données
      2. b. Séparation des variables explicatives dela variable cible
      3. c. Séparation entre données d’entraînementet de test
      4. d. Les transformations des variables
      5. e. Finalisation de la préparation des données
    2. 2. Fonction de calcul et d’affichage des régressions
    3. 3. La modélisation d’une régression
      1. a. Modèle de base (DummyRegressor)
      2. b. Test des algorithmes concurrents
      3. c. Le pipeline
  4. La classification en pratique
    1. 1. Préparation des données
      1. a. Import des données
      2. b. Séparation entre les variables explicativeset la variable cible
      3. c. Séparation entre données d’entraînementet de test
      4. d. Transformation des colonnes
      5. e. Remise en forme des noms
      6. f. Ajustement du type des variables
    2. 2. Fonction de calcul et d’affichage des classifications
    3. 3. Expérimentations
      1. a. Modèle de base (DummyClassifier)
      2. b. Algorithmes concurrents
  5. Conclusion
L’apprentissage non supervisé
  1. Introduction
  2. La réduction dimensionnelle
    1. 1. L’ACP en pratique pour analyser
      1. a. Préparation des données
      2. b. L’éboulis des valeurs propres
      3. c. Le cercle des corrélations
      4. d. Le graphique des individus
    2. 2. L’ACP en pratique pour modéliser
    3. 3. Les autres algorithmes de réduction dimensionnelle
  3. Le clustering
    1. 1. La pratique du clustering avec le K-means
      1. a. Acquisition et préparation des données
      2. b. Les tests pour déterminer le nombre de clusters
      3. c. Choix du clustering
      4. d. Le score ARI
    2. 2. Les autres algorithmes de clustering
      1. a. GMM
      2. b. Meanshift
      3. c. DBSCAN
Modéliser le texte et l’image
  1. La modélisation du texte
    1. 1. Les modules du NLP
      1. a. NLTK
      2. b. TextBlob
      3. c. spaCy
    2. 2. Mise en pratique de la NLP
      1. a. Prétraitement des données
      2. b. Les extracteurs de caractéristiques
      3. c. La modélisation
    3. 3. Introduction aux modèles avancésen NLP
      1. a. Les représentations de mots
      2. b. L’encodage des phrases
      3. c. Transformers et modèles contextuels
      4. d. Les Larges Languages Models (LLM)
  2. La modélisation des images
    1. 1. Les solutions de Machine Learning destinéesaux images
      1. a. Pillow pour s’initier au prétraitement
      2. b. Scikit-image
      3. c. OpenCV
    2. 2. Méthodes de modélisation des images
      1. a. Segmenter
      2. b. Détecter
      3. c. Classifier
    3. 3. Aller plus loin avec les CNN
      1. a. Principe de fonctionnement du CNN
      2. b. Transfer learning
      3. c. Initiation à Tensorflow et Keras
      4. d. Exemples d’utilisation des CNN
Mener un projet de data science avec Python
  1. Introduction
  2. Le sujet : déterminer le prix des véhicules d’occasion
    1. 1. Les données
    2. 2. Les étapes du projet
      1. a. Le notebook de l’EDA
      2. b. Le notebook de modélisation
      3. c. Les aléas des données
  3. La modélisation en pratique
    1. 1. Notebook 1 : EDA
      1. a. Acquisition et premiers contrôles des données
      2. b. Nettoyage des données
      3. c. Exploration et analyse
    2. 2. Notebook 2 : modélisation simple
      1. a. Acquisition et sélection des données
      2. b. Modélisation
      3. c. Résultats
    3. 3. Notebook 3 : modélisation mixte
      1. a. Acquisition et sélection des données
      2. b. Modélisation
      3. c. Résultats
  4. Conclusion
Conclusion
  1. Le rôle central des données et de leur compréhension
  2. Des évolutions qui transforment et accélèrent tout
    1. 1. L’évolution du matérieltechnologique
    2. 2. L’amélioration des modèles
    3. 3. La diffusion dans le grand public et la prise en compteprogressive des enjeux
  3. Importance de la théorie et invitation à l’exploration
Auteur : Éric DEMANGEL

Éric DEMANGEL

Eric DEMANGEL est data scientist freelance depuis 2020 après avoir accumulé 11 années d'expérience en tant que data analyste dans une société d’études de marché. Passionné par l'enseignement, il a également endossé le rôle de mentor en data, avec lequel il guide ses étudiants avec une curiosité insatiable et un désir constant de transformer les données en savoir. A travers ses enseignements, il s'efforce de rendre ce domaine complexe accessible à tous, en simplifiant ses concepts et en partageant son expertise de manière claire et pédagogique.
En savoir plus

Nos nouveautés

voir plus