Gradient Boosted Tree : contexte et théorie
Contexte
Ce chapitre esquisse un premier aperçu des modèles de type Gradient Boosted Trees (GBT). Ce sont des modèles prédictifs, constitués d’un ensemble d’arbres de décision, dont l’apprentissage se fait de manière séquentielle en boostant la précision du précédent modèle. La prédiction est généralement de deux types : régression ou classification.
La classification analyse un ensemble de données et leur attribue une étiquette (ou label).
La régression analyse pour sa part les données et produit une valeur numérique.
Dans cette première section seront détaillés des éléments de contexte sur la Data Science et la place qu’y prennent les méthodes de type Gradient Boosted Trees.
Les cas dans lesquels les mettre à profit feront l’objet de la section suivante, tandis que leurs avantages et leurs limitations seront abordés dans les deux dernières sections.
1. Océan de données
Dans tous les domaines d’activités humaines, le volume de données à disposition explose depuis deux décennies : c’est la révolution du Big Data. Ce gisement de données est une source d’applications et de progrès qui ne demandent qu’à être exploités. Les usages possibles sont légion.
Revers de la médaille, ces données sont collectées dans des proportions telles qu’il est difficile, voire impossible pour un humain...
Cas d’application des méthodes de Gradient Boosting
1. Palmarès reconnu
Les méthodes de Gradient Boosting se sont révélées des outils particulièrement efficaces dans le monde de la Data Science. Les diverses librairies qui implémentent leurs principes, comme XGBoost, CatBoost ou encore LightGBM, sont régulièrement en tête des meilleures solutions dans des compétitions de Data Science telles que Kaggle.
Leur généricité, leur rapidité d’entraînement et leur polyvalence ont généralisé leur usage dans de nombreux domaines industriels, commerciaux, énergétiques ou encore médicaux.
2. Large spectre d’application
Les méthodes de Gradient Boosting offrent en outre l’avantage de pouvoir être utilisées avec autant de succès dans les deux grands cas d’utilisation de l’apprentissage machine qui ont été cités un peu plus haut : régression et classification.
C’est l’une de leurs grandes forces, à l’origine de leur polyvalence. Maîtriser les méthodes de Gradient Boosting permet donc de s’attaquer avec succès à de multiples problèmes de la Data Science. C’est un gain en efficacité dont il serait dommage de se priver, dans un domaine...
Avantages indéniables
Les sections précédentes ont égrené pêle-mêle quelques-uns des avantages des méthodes de Gradient Boosting. Cette section revient plus en détail sur chacun d’entre eux.
1. Simplicité de configuration
Le premier avantage indéniable de ces méthodes réside dans leur simplicité de prise en main. Quel que soit la librairie ou le langage utilisé, généralement du Python, la création d’un premier modèle ne nécessite pas plus de quelques lignes de code.
Les paramètres accessibles à l’utilisateur sont pour l’essentiel aisément appréhendables et facilement optimisables dans la phase d’affinage des hyperparamètres. Le chapitre Hyperparameters Tuning approfondira ce point.
2. Polyvalence au service de l’efficacité
Les méthodes de Gradient Boosting brillent par leur polyvalence. Comme précisé plus haut, elles supportent nativement la classification aussi bien que la régression.
Par ailleurs, elles excellent aussi bien dans ces deux domaines et ont démontré leur capacité à atteindre pour ces deux cas d’usage des niveaux de précision importants.
Pour preuve, elles se retrouvent régulièrement en tête des classements dans les contests de Data Science...
Limitations
En dépit de tous ces avantages, les méthodes de Gradient Boosting appliquées à l’entraînement des arbres de décision n’en souffrent pas moins de quelques limitations.
1. Absence de support de l’extrapolation
Comme en sera faite la démonstration dans le chapitre suivant, les méthodes de Gradient Boosting basées sur les arbres de décision ne peuvent intrinsèquement pas extrapoler.
Cela peut poser souci lorsqu’il faut créer un modèle capable de faire des prédictions dans un contexte temporel où les données ne sont pas stationnaires.
C’est-à-dire qu’elles font l’objet de variations non périodiques dans le temps, comme par exemple une croissance ou une décroissance continue.
Certaines d’entre elles sont fort heureusement contournables. Les chapitres suivants donneront l’occasion de proposer quelques palliatifs.
2. Aucun travail sur les features
Les réseaux de neurones, en dépit des réserves qui sont émises relativement à leur temps de configuration, d’entraînement et leur appétit insatiable en termes de données, présentent toutefois une caractéristique qui les rend uniques : ils sont capables de construire seuls des features de haut niveau à partir des features brutes.
Les features sont des caractéristiques...