Blog ENI : Toute la veille numérique !
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
💥 Les 22 & 23 novembre : Accès 100% GRATUIT
à la Bibliothèque Numérique ENI. Je m'inscris !
  1. Livres et vidéos
  2. Machine Learning - Implémentation en Python avec Scikit-learn (2e édition)

Machine Learning Implémentation en Python avec Scikit-learn (2e édition)

1 avis

Informations

Livraison possible dès le 25 novembre 2024
  • Livraison à partir de 0,01 €
  • Version en ligne offerte pendant 1 an
Livres rédigés par des auteurs francophones et imprimés à Nantes

Caractéristiques

  • Livre (broché) - 17 x 21 cm
  • ISBN : 978-2-409-04482-3
  • EAN : 9782409044823
  • Ref. ENI : EI2MLPYTSL

Informations

  • Consultable en ligne immédiatement après validation du paiement et pour une durée de 10 ans.
  • Version HTML
Livres rédigés par des auteurs francophones et imprimés à Nantes

Caractéristiques

  • HTML
  • ISBN : 978-2-409-04483-0
  • EAN : 9782409044830
  • Ref. ENI : LNEI2MLPYTSL
Ce livre présente à des personnes non Data Scientists, et sans connaissances particulières en mathématiques, la méthodo­logie du Machine Learning, ses concepts, ses principaux algorithmes et l’implémentation de ceux-ci en Python avec Scikit-learn. Il commence par une présentation du Machine Learning puis de la méthode CRISP où chaque phase est détaillée avec ses dif­férentes étapes. Les premiers chapitres s’intéressent donc aux phases de Business Understanding (compréhension métier), Data...
Consulter des extraits du livre en ligne Aperçu du livre papier
  • Niveau Confirmé à Expert
  • Nombre de pages 338 pages
  • Parution mai 2024
  • Niveau Confirmé à Expert
  • Parution mai 2024
Ce livre présente à des personnes non Data Scientists, et sans connaissances particulières en mathématiques, la méthodo­logie du Machine Learning, ses concepts, ses principaux algorithmes et l’implémentation de ceux-ci en Python avec Scikit-learn.

Il commence par une présentation du Machine Learning puis de la méthode CRISP où chaque phase est détaillée avec ses dif­férentes étapes. Les premiers chapitres s’intéressent donc aux phases de Business Understanding (compréhension métier), Data Understanding (ou compréhension des données) et de Data Preparation (préparation des données). Dans ces cha­pitres sont présentées des analyses statistiques de datasets, que cela soit sous forme numérique ou graphique ainsi que les principales techniques utilisées pour la préparation des don­nées, avec leur rôle et des conseils sur leur utilisation.

Ensuite, plusieurs chapitres sont dédiés chacun à une tâche de Machine Learning : la classification, la régression, avec le cas particulier de la prédiction, ainsi que le clustering et plus globa­lement l’apprentissage non supervisé. Pour chaque tâche qui est présentée sont successivement détaillés les critères d’éva­luation, les concepts derrière les principaux algorithmes puis leur implémentation avec Scikit-learn.

Pour illustrer les différents chapitres, les techniques et algorithmes présentés sont appliqués sur des datasets souvent utilisés : Iris (classification de fleurs), Boston (prévision de prix de vente d’appartements) et Titanic (prévision de la chance de survie des passagers du bateau). Le code Python est commenté et dispo­nible en téléchargement (sous la forme de notebooks Jupyter) sur le site www.editions-eni.fr.

Téléchargements

Introduction
  1. Pourquoi un livre sur le Machine Learning ?
  2. Python et Scikit-learn : les raisons du choix
  3. À qui s'adresse ce livre ?
  4. Organisation du livre et éléments en téléchargement
  5. Datasets utilisés dans ce livre
    1. 1. Iris de Fisher, 1936
    2. 2. Titanic, 1994
    3. 3. Boston, 1978
Le Machine Learning : vue d'ensemble
  1. Un peu de vocabulaire
  2. Les métiers de la data
  3. La croissance du Machine Learning
  4. Formes d'apprentissage et tâches de ML
    1. 1. Apprentissage supervisé
      1. a. Classification
      2. b. Classification : le cas des images
      3. c. Régression
      4. d. Prévision
    2. 2. Apprentissage non supervisé
      1. a. Clustering
      2. b. Réduction de dimensions
      3. c. Système de recommandations
      4. d. Associations
    3. 3. Apprentissage par renforcement
      1. a. Comportements
      2. b. Jeux et stratégies
    4. 4. Apprentissage semi-supervisé
    5. 5. Cas des IA génératives
    6. 6. Synthèse des différentes formesd’apprentissage et tâches
  5. Méthodologie CRISP-DM
    1. 1. Vue d’ensemble
    2. 2. Business Understanding
    3. 3. Data Understanding
      1. a. Carte d’identité du dataset
      2. b. Description des champs
      3. c. Statistiques descriptives
    4. 4. Data Preparation
    5. 5. Modeling
    6. 6. Évaluation
    7. 7. Deployment
La pile technologique en Python
  1. Les outils de la Data Science
    1. 1. Les outils intégrés
    2. 2. L’auto ML
    3. 3. Les outils de développement
  2. Langage Python
    1. 1. Présentation
    2. 2. Brève présentation de R
    3. 3. Python ou R ?
    4. 4. Python 2 vs Python 3
  3. Jupyter
    1. 1. Caractéristiques de Jupyter
    2. 2. Avantages de Jupyter pour la Data Science
    3. 3. Installation et utilisation de Jupyter
  4. Librairies de Machine Learning
    1. 1. NumPy
    2. 2. Pandas
    3. 3. Matplotlib
    4. 4. Scikit-learn
  5. Bibliothèques de Deep Learning
Chargement et analyse des données
  1. La phase de Data Understanding
  2. Chargement des données
  3. Création de la carte d'identité du dataset
  4. Description des champs
    1. 1. Gestion des types
    2. 2. Détection des données manquantes
  5. Statistiques descriptives sur les champs
    1. 1. Types de données
    2. 2. Analyse des données numériques
    3. 3. Graphiques sur les données numériques
      1. a. Histogramme
      2. b. Nuage de points
      3. c. Boîtes à moustaches
    4. 4. Analyse sur les données catégorielles
    5. 5. Graphiques sur les données catégorielles
    6. 6. Autres données
    7. 7. Analyse croisée des données
      1. a. Entre des variables numériques
      2. b. Entre des variables numériques et une variablecatégorielle
      3. c. Entre des variables catégorielles
  6. Préparer la phase suivante
Préparation des données
  1. La phase de Data Preparation
  2. Limiter les données
    1. 1. Supprimer des colonnes
    2. 2. Supprimer des enregistrements
  3. Séparer les datasets
    1. 1. Proportion Entraînement/Test
    2. 2. Séparation aléatoire
    3. 3. Séparation stratifiée
  4. Traiter les données manquantes
  5. Préparer les attributs numériques
    1. 1. Validation des données
      1. a. Validation sémantique des données
      2. b. Validation statistique des données
    2. 2. Feature engineering
    3. 3. Discrétisation
      1. a. Intervalles égaux
      2. b. Répartition par quantile
      3. c. Répartition manuelle
    4. 4. Normalisation
      1. a. Normalisation min-max
      2. b. Normalisation standard
      3. c. Normalisation robuste
      4. d. Comparaison
  6. Préparer les variables catégorielles
    1. 1. Validation des données
    2. 2. Modification des catégories
      1. a. Ordonner ou réordonner des catégories
      2. b. Modifier la liste des catégories
    3. 3. Quantification
  7. Les données particulières
    1. 1. Préparer les dates
      1. a. Le format datetime64
      2. b. Extraire des composantes
      3. c. Gérer les écarts
    2. 2. Préparer les chaînes de caractères
      1. a. Préparer les chaînes
      2. b. Effectuer une recherche dans les chaînes
      3. c. Extraire des sous-chaînes
      4. d. Autres méthodes
  8. Automatiser la préparation
    1. 1. Création de pipelines de traitement
    2. 2. Paramètres des opérations et codePandas
    3. 3. Pipelines avec Scikit-learn
      1. a. Création d’un Transformer
      2. b. Utilisation des Transformer
      3. c. Inconvénients de Scikit-learn
    4. 4. Autres possibilités
Modélisation et évaluation
  1. Phase de modélisation
  2. Création d'un ensemble de validation
  3. Préparation des datasets
    1. 1. Dataset Iris
    2. 2. Dataset Titanic
    3. 3. Dataset Boston
  4. Création des modèles
    1. 1. Processus itératif
    2. 2. Création d’un modèle en Scikit-learn
    3. 3. Évaluation d’un modèle
    4. 4. Validation croisée
    5. 5. Sauvegarde et chargement d’un modèle
  5. Amélioration des modèles (fine-tuning)
    1. 1. Optimisation des hyperparamètres
    2. 2. Application en Scikit-learn
    3. 3. Sur- et sous-apprentissage
  6. Méthodes ensemblistes
    1. 1. Bagging
    2. 2. Boosting
    3. 3. Stacking
Algorithmes de classification
  1. La tâche de classification
    1. 1. Définition
    2. 2. Exemples de cas pratiques
    3. 3. Préparation spécifique des données
  2. Évaluation des modèles
    1. 1. Matrices de confusion
      1. a. Cas de la classification binaire
      2. b. Cas de la classification multiclasse
    2. 2. Indicateurs dérivés de la matricede confusion
      1. a. Accuracy
      2. b. Rappel et précision
      3. c. F1-score
      4. d. Sensibilité et spécificité
    3. 3. La courbe ROC et l’AUC
      1. a. Prédiction et probabilité
      2. b. Taux de vrais et faux positifs
      3. c. Courbe ROC
      4. d. Aire sous la courbe (AUC)
    4. 4. Choix des indicateurs d’évaluation
  3. Les arbres de décision et algorithmes dérivés
    1. 1. Arbres de décision
      1. a. Sortie de l’arbre
      2. b. Choix du point de coupure
      3. c. Critères d’arrêt
      4. d. Exploitation de l’arbre
    2. 2. Random Forests
    3. 3. XGBoost (eXtreme Gradient Boosting)
  4. K-Nearest Neighbors
  5. Logistic Regression
    1. 1. Régression logistique binaire
    2. 2. Régression logistique polytomique
    3. 3. Application avec Scikit-learn
  6. Naive Bayes
    1. 1. Principe général
    2. 2. Calcul des différentes probabilités
    3. 3. Application avec Scikit-learn
  7. Support Vector Machine
    1. 1. Présentation générale
      1. a. Marge et support vector
      2. b. Kernels
      3. c. Avantages
    2. 2. Application avec Scikit-learn
Algorithmes de régression
  1. La tâche de régression
    1. 1. Définition
    2. 2. Exemples de cas pratiques
    3. 3. Préparation spécifique des données
  2. Entraînement et évaluation des modèles
    1. 1. Notion d’erreurs
    2. 2. Indicateurs dérivés de la mesured’erreurs
      1. a. Erreur absolue moyenne
      2. b. Erreur quadratique moyenne
      3. c. Racine de l’erreur quadratique moyenne
      4. d. Coefficient de détermination et varianceexpliquée
      5. e. Autres indicateurs
    3. 3. Choix des indicateurs d’évaluation
  3. Utilisation des algorithmes de classification
    1. 1. Principe général
    2. 2. Arbres de décision et algorithmes dérivés
      1. a. Arbres de décision
      2. b. Random Forest
      3. c. XGBoost
    3. 3. K-plus proches voisins (KNN)
    4. 4. Support Vector Machine (SVM)
  4. Régression linéaire et variantes
    1. 1. Régression linéaire
    2. 2. Application dans Scikit-learn
    3. 3. Problème de la colinéarité
    4. 4. Ridge Regression
    5. 5. Régression Lasso
  5. Régression polynomiale
    1. 1. Principe
    2. 2. Régression polynomiale et Scikit-learn
  6. Cas particulier de la prédiction
    1. 1. Prédiction et séries temporelles
    2. 2. Préparation des données
    3. 3. Application en Scikit-learn
    4. 4. Utilisation de modèles spécifiques
      1. a. Limites de l’approche en régression linéaire
      2. b. Algorithmes dédiés aux sériestemporelles
Algorithmes d’apprentissage non supervisés
  1. Les tâches en apprentissage non supervisé
  2. Clustering
    1. 1. Définition
    2. 2. Exemples de cas pratiques
    3. 3. Algorithmes basés sur les distances
      1. a. Principe de l’algorithme K-Means
      2. b. Implémentation avec Scikit-learn
      3. c. Variantes de l’algorithme K-Means
    4. 4. Algorithmes basés sur la densité
      1. a. Principe général
      2. b. Implémentation de DBSCAN en Scikit-learn
      3. c. Variante de DBSCAN : OPTICS
  3. Réduction des dimensions
    1. 1. Définition
    2. 2. Exemples de cas pratiques
    3. 3. Détection des axes principaux
    4. 4. Création de nouveaux axes
      1. a. Principal Component Analysis (PCA)
      2. b. Linear Discriminant Analysis (LDA)
  4. Systèmes de recommandation
    1. 1. Définition
    2. 2. Principales approches
      1. a. Modèles basés sur la popularité (popularity-basedfiltering)
      2. b. Modèles basés sur le contenu (content-basedfiltering)
      3. c. Modèles basés sur les autres utilisateurs(collaborative filtering)
      4. d. Méthodes hybrides
  5. Association
    1. 1. Définition
    2. 2. Évaluation des algorithmes
      1. a. Le support
      2. b. L’indice de confiance
      3. c. Le lift
    3. 3. Algorithme « APriori »
      1. a. Étape 1 : réalisation descomptages des ensembles
      2. b. Étape 2 : création et testdes règles
Évaluation et déploiement
  1. Phase d'évaluation
    1. 1. Principe global
    2. 2. Évaluation métier des résultats
    3. 3. Revue du processus
    4. 4. Étapes suivantes
  2. Phase de déploiement
    1. 1. Planification du déploiement
    2. 2. Monitoring et maintenance
    3. 3. Rapport final et documentation
  3. Déploiement et MLOps
    1. 1. Retours sur le DevOps
    2. 2. Apparition du MLOps
    3. 3. Tâches couvertes par le MLOps
    4. 4. Critères de choix
Conclusion
  1. Le Machine Learning, une compétence clé
  2. Mener un projet jusqu'au bout
  3. Au-delà de la méthodologie
  4. Expérimentation et expérience
  5. Pour aller plus loin
4/5 1 avis
Version papier

un bon livre

Anonyme
Auteur : Virginie  MATHIVET

Virginie MATHIVET

Virginie MATHIVET a fait une thèse de doctorat en Intelligence Artificielle, plus précisément sur les algorithmes génétiques et les réseaux de neurones. Après avoir enseigné l'intelligence artificielle, la robotique et des matières liées au développement pendant plus de 10 ans, elle monte un département Data dans une ESN (IA, Data Engineering, Big Data). En 2023 elle crée sa propre entreprise, Hemelopse, pour se concentrer sur le conseil stratégique en IA, tout en continuant la formation et le coaching de data scientists. Elle est également conférencière.


En savoir plus

Découvrir tous ses livres

  • L'Intelligence Artificielle pour les développeurs Concepts et implémentations en Java (2e édition)
  • L'Intelligence Artificielle pour les développeurs Concepts et implémentations en C# (2e édition)

Nos nouveautés

voir plus