Blog ENI : Toute la veille numérique !
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
💥 Les 22 & 23 novembre : Accès 100% GRATUIT
à la Bibliothèque Numérique ENI. Je m'inscris !
  1. Livres et vidéos
  2. Langage R et statistiques
  3. La régression
Extrait - Langage R et statistiques Initiation à l'analyse de données
Extraits du livre
Langage R et statistiques Initiation à l'analyse de données
1 avis
Revenir à la page d'achat du livre

La régression

Définitions et limites de la régression

La régression permet de prédire une variable, la variable réponse ou la variable à expliquer, notée Y, à partir d’une ou de plusieurs autres, la ou les variables explicatives, notées X ou X1,X2… Nous commencerons par détailler le cas d’une seule variable explicative quantitative afin de bien développer le fonctionnement de la régression. L’utilisation de plusieurs variables explicatives est abordée rapidement dans la section Régression multiple de ce chapitre puis dans le chapitre Les modèles linéaires généralisés.

Lorsque deux variables sont corrélées (cf. chapitre Les statistiques), il est possible de calculer, d’estimer l’une par rapport à l’autre, c’est ce que fait la régression. Comme la corrélation n’implique pas la causalité, la distinction entre variable réponse et variable explicative est à baser sur la connaissance des données et la question posée.

Par exemple, la circonférence d’un arbre est positivement corrélée à son âge, donc il est possible de considérer l’âge comme la variable explicative de la circonférence du tronc. À l’inverse, si le but de l’analyse de données est de déterminer l’âge des arbres à partir de la circonférence de leurs troncs, la variable réponse est l’âge et la variable explicative la circonférence.

La régression peut être utilisée dans la phase des statistiques descriptives pour quantifier la corrélation entre deux variables ou dans la phase des statistiques analytiques, c’est-à-dire les statistiques inférentielles et prédictives....

Régression linéaire simple

1. Objectif de la régression linéaire simple

La régression linéaire revient à essayer de trouver/déterminer l’équation images/03eq02.PNG, avec X la variable explicative qui s’approcherait au mieux des valeurs de Y.

L’inconnu a donne la pente (slope), c’est-à-dire l’inclinaison de la droite prédite. L’inconnu b est l’ordonnée à l’origine (intercept), c’est la valeur à laquelle la droite coupe l’axe des ordonnées.

Le modèle ajuste les paramètres a et b pour obtenir la meilleure équation, c’est-à-dire celle qui représente le mieux les données, donc celle pour laquelle la somme des écarts entre les valeurs calculées et réelles est la plus faible (cf. figure 03-01). Comme les écarts peuvent être positifs ou négatifs, les carrés ont été privilégiés, raison pour laquelle cette méthode est dite des moindres carrés (OLS pour Ordinary Least Squares).

Dans le chapitre Les statistiques, à la section Initiation à la réalisation de graphiques avec {ggplot2} dans R, le lien entre longueur et largeur des pétales d’iris a été visualisé avec un nuage de points sans être analysé. Le graphique de la figure 02-02 va servir d’exemple à la réalisation d’une régression linéaire simple.

images/03R01.png

Figure 03-01 : Nuage de points représentant la largeur des pétales d’iris en fonction de la longueur. La droite représente la régression linéaire simple réalisée ci-après (cf. figure 03-02). Les pointillés représentent les écarts entre les valeurs réelles et prédites par l’équation...

Généralisation de la régression paramétrique dans R

1. Régression polynomiale

Dans le graphique B de la figure 03-03, les données se dispersent selon une courbe en cloche. Ce type de courbe est typique d’une relation polynomiale entre les données, c’est-à-dire que l’équation est de la forme images/03eq10.PNG. L’équation polynomiale utilise au minimum trois inconnues : a, b et c ; elle est donc plus "coûteuse" en hypothèses que la régression linéaire.
Un polynôme est la somme de plusieurs monômes de la forme images/03eq10a.PNG, avec images/04eq03.PNG le coefficient, c’est-à-dire un nombre, et n le degré du monôme. Dans l’équation précédente, le polynôme est de degré 2, le degré du premier monôme est 2, ensuite c’est 1, puis 0. Un polynôme de degré 1 est une équation linéaire. Dans cet ouvrage, seul le polynôme de degré 2 sera vu.

La régression polynomiale, comme la régression linéaire, fait partie des modèles linéaires, car ce n’est pas l’équation qui donne son nom au modèle, mais la manière d’associer les effets. Les effets sont en fait additionnés. C’est pourquoi la fonction à utiliser est la même que précédemment, à savoir lm() du package {stats}. C’est la formule qui détermine le type de régression.

L’objectif de l’exemple est de déterminer si le volume du cylindre (variable disp, pour displacement en anglais) en cubic inches peut permettre de modéliser la distance parcourue avec un gallon de carburant (variable mpg pour miles per gallon), à partir du jeu de données mtcars présent dans le package {base} chargé automatiquement...

Régression non paramétrique dans R

1. Définitions et limites de la régression non paramétrique

Lorsque les résidus des modèles linéaires ne suivent pas une loi normale ou qu’ils sont franchement hétérogènes, il peut être intéressant de réaliser une régression non paramétrique.

"Non paramétrique" ne signifie pas qu’il n’y a aucun paramètre, mais que la fonction qui lie la variable réponse aux variables explicatives n’a pas de forme déterminée !

La régression non paramétrique demande des tailles d’échantillons plus grandes pour "compenser" l’absence d’équation définie.

Le but de la régression non paramétrique est d’obtenir une fonction de lissage images/03eq24.PNG qui représente au mieux la tendance des données. Contrairement à la régression paramétrique où l’équation est construite à partir de blocs, la régression non paramétrique n’utilise que les données. La fonction images/03eq24.PNG est calculée à partir des couples de coordonnées : images/03eq25.PNG + images/03eq27.PNG avec images/03eq26.PNG, et images/03eq27.PNG l’erreur aléatoire. Les résidus, appelés ici erreurs aléatoires, peuvent suivre une loi normale, mais sans que cela soit nécessaire.
Il existe différentes méthodes pour déterminer images/03eq24.PNG :
  • Moyenne mobile ou moyenne mobile pondérée : calcul en chaque point d’une moyenne sur son voisinage. La pondération permet de donner plus d’importance (de poids) aux points les plus proches.

  • Régressogramme : la variable X est découpée en intervalles réguliers, puis la moyenne de Y est calculée sur chaque intervalle.

  • Régression polynomiale...