Critères de performance et de sélection
Introduction
Les données étant importées, nettoyées et mieux connues, nous allons pouvoir nous lancer dans la création de modèles.
Plusieurs modèles peuvent répondre à un même besoin, grâce à des types d’algorithmes différents, ou simplement avec des variations de combinaisons de paramètres régissant la manière d’apprendre (aussi appelés hyperparamètres). Forts des possibilités qui s’offrent à nous, il est nécessaire d’avoir des outils et des critères pour comparer les modèles candidats et nous aider à en choisir un ou ajuster les réglages pour les améliorer.
C’est pourquoi, avant toute création de modèles, il est fondamental de définir ce qu’est un « bon » modèle d’apprentissage automatique, de découvrir les méthodes d’échantillonnage pour mener à bien l’évaluation des modèles et les différents critères et métriques qui permettront d’évaluer leurs performances.
Découvrons ensemble les connaissances et les méthodes nécessaires pour évaluer nos modèles et les optimiser avant de les sélectionner pour une mise en production. Nous aborderons les thèmes suivants :
-
défi...
Défi de la création du modèle idéal
En IA, notre objectif est bel et bien de créer un modèle permettant de prédire des résultats à la manière de ceux présents dans l’ensemble des échantillons fournis lors de l’apprentissage. Pour créer des modèles d’apprentissage supervisés, nous verrons qu’une multitude d’algorithmes est à notre disposition, certains sont adaptés à des tâches de classification et d’autres à celles de régression. Notre méthodologie suivra les étapes suivantes :
1 - sélection d’algorithmes candidats à la création de modèles ;
2 - création de modèles pour chacun d’entre eux ;
3 - optimisation de chacun des modèles candidats ;
4 - sélection du modèle le plus performant.
La phase de sélection des algorithmes d’apprentissage candidats n’est pas compliquée, cependant cela requiert un peu d’expérience et de l’intuition que nous allons nous employer à développer au fil de nos mises en pratique. Nous essaierons d’ailleurs de formaliser cette phase dans le chapitre Choix, optimisation et sélection des modèles.
Chaque algorithme nécessitera de fixer des hyperparamètres. Ce sont les paramètres globaux qui régissent la manière d’apprendre de notre modèle.
Une fois le modèle résultant créé...
Évaluation des performances
Les performances de chaque modèle créé doivent pouvoir être évaluées soit pour retenir le modèle qui sera exploité en production, soit pour l’améliorer. Dans les apprentissages supervisés, nous avons systématiquement un ensemble de données étiquetées (échantillons de données de départ et les résultats attendus), voyons comment utiliser les ensembles fournis pour entraîner et évaluer ces performances.
1. Découpage en ensembles d’entraînement et de test
La méthode la plus simple pour entraîner et évaluer les performances d’un modèle donné consiste à prendre l’ensemble des données fournies et de les découper en deux sous-ensembles disjoints :
-
L’ensemble d’entraînement : tous les échantillons de cet ensemble serviront à entraîner le modèle courant. Plusieurs méthodes d’entraînement existent en fonction des algorithmes utilisés, mais l’idée générale est que, dans cette phase, le modèle s’ajuste automatiquement en fonction des données d’entrée et des données de sortie attendues.
-
L’ensemble de test : tous les échantillons de cet ensemble serviront à évaluer...
Métriques d’évaluation des performances des modèles
Pour pouvoir évaluer et quantifier les performances de chaque modèle créé, certaines métriques seront plus opportunes que d’autres. En effet, les modèles de classification ne pourront pas être évalués par les mêmes indicateurs que ceux de régression.
1. Métriques d’évaluation des modèles de classification
Pour rappel, un modèle de classification permet de prévoir à quelle classe (ou catégorie) appartient un échantillon donné. Par exemple, à partir des données d’un patient, nous pouvons prévoir s’il présente un risque d’être atteint par une pathologie ou non. Ce cas-là est une classification binaire car le nombre de classes possibles est égal à 2. Au-delà de deux classes, on parle de classification multiclasse.
Pour faciliter la compréhension des notions parcourues, nous allons présenter les métriques sur des cas de problèmes de classification binaires, mais cela pourra s’étendre à des problèmes de classification multiclasse sans aucun souci. Les portions de code seront les mêmes pour tous les types de problèmes.
Avant même de plonger dans les chiffres, il est important de connaître la notion de matrice de confusion. Derrière cette appellation pompeuse se cache une manière simple et efficace de présenter les résultats d’une classification.
a. Matrice de confusion
Une matrice de confusion permet de présenter sous forme de tableau les résultats effectifs du modèle et les résultats attendus (les étiquettes d’observations).
Prenons un exemple ci-après d’un problème binaire de classification d’images ; il s’agit là de faire prédire si une image représente un chat ou non.
Voici quelques notions de vocabulaire sur les types de résultats possibles qui nous faciliteront la compréhension.
Vrai Positif (VP)
Un vrai positif est une prédiction qu’un échantillon est un chat qui s’avère être juste. La prédiction est égale à l’étiquette d’observation.
Faux Positif (FP)...
Exploitation des métriques d’évaluation dans l’optimisation des hyperparamètres
Toutes les métriques présentées ci-avant peuvent paraître abstraites. Avant de nous lancer dans la découverte des algorithmes d’éducation de modèles d’IA, voyons rapidement leur utilité concrète.
Comme nous l’avons vu, la création et la sélection des modèles se feront en plusieurs phases comme tout projet d’IA :
|
1. |
récupération des données ; |
|
2. |
nettoyage, analyse, visualisation des données ; |
|
3. |
définition du type de problème à traiter ; |
|
4. |
présélection des algorithmes disponibles pour régler notre problème ; |
|
5. |
définition des métriques qui permettront d’évaluer les performances de nos modèles ; |
|
6. |
création de modèles candidats pour une exploitation en production ; |
|
7. |
optimisation des hyperparamètres (valeurs des réglages) pour chacun des modèles candidats ; |
|
8. |
une fois tous les modèles prêts, comparaison des performances et choix du modèle à mettre en production. |
Les métriques seront donc utiles dans les phases 5, 7 et 8 de la chronologie précédente.
En effet, nous aurons la possibilité d’utiliser des algorithmes d’optimisation...