Name: Langage R Prise en main des statistiques
Rating: 4.249975 (4 reviews)

Introduction

Les modèles statistiques sont une classe de modèles mathématiques qui supposent l’existence d’un mécanisme sous-jacent expliquant le processus de génération des observations ou données et qui tentent d’en donner une formalisation mathématique approximative. Plus concrètement, ils s’intéressent à expliquer une variable aléatoire images/eq81.png

d’intérêt à travers une fonction qui s’exprime et implique très souvent d’autres variables aléatoires images/eq11.png

. La première, la variable Y est souvent dénommée variable de réponse, variable à expliquer ou variable dépendante ou encore variable à prédire, alors que les autres variables images/eq82.png

sont dénommées variables explicatives, prédictives ou encore variables indépendantes. On distingue notamment :

Modèles	Variable de réponse	Variable explicative
Régression linéaire simple	1 variable continue	1 variable continue
ANCOVA		1 ou plusieurs variables qualitatives et continues
Régression linéaire multiple		1 ou plusieurs variables qualitatives et continues
ANOVA		1 ou plusieurs variables qualitatives ou facteurs
MANOVA	Plusieurs variables continues	1 ou plusieurs variables qualitatives ou facteurs
Analyse discriminante	1 variable catégorielle spécifiquement dichotomique	1 ou plusieurs variables qualitatives et continues
Régression logistique	1 variable catégorielle spécifiquement dichotomique	1 ou plusieurs variables qualitatives et continues

Dans...

Analyse de la variance (ANOVA)

Dans le précédent chapitre, on a abordé plusieurs tests, dont notamment le test de comparaison de moyennes d’un - cas de comparaison par rapport à une référence, c’est pour ça que l’on parle de test de conformité - ou deux échantillons de données. L’ensemble de ces tests est souvent dénommé T-Test à cause de la loi T de Student que suit la distribution sous-jacente de l’échantillon.

Maintenant, on pourrait s’interroger sur le recours au T-Test dans le cas où l’on dispose de plus de deux échantillons, ou plus spécifiquement où l’on dispose de trois échantillons ? On peut penser utiliser un T-Test en couplant deux à deux les moyennes, ce qui revient à comparer la moyenne de l’échantillon images/eq68.png

à celle de images/eq69.png

, de

à celle de images/eq83.png

et finalement de images/eq69.png

à

. Ça pourrait fonctionner si ça n’impliquait pas un risque d’erreur de Type I plus important (voir dans le précédent chapitre pour la définition). En effet, si l’on fixe ce risque pour chaque T-Test à 5 % comme on a l’habitude de faire, pour la comparaison combinée des trois T-Test, en supposant les échantillons indépendants, on se retrouve avec un risque d’erreur de Type I égal à images/eq84.png

, ce qui est évidemment trop élevé pour un risque d’erreur de Type I surtout si on a un nombre K élevé de moyennes.

Ainsi, l’ANOVA est un palliatif pour résoudre cette inflation du risque d’Alpha ou d’erreur de Type I qui implique une dégradation du niveau de confiance quand le nombre K d’échantillons augmente. Autre part l’ANOVA s’interprète dans le cas de plan d’expérience comme une relation qui explique une variable de réponse Y continue (par exemple le poids d’un sujet test, le volume des ventes, etc.) par un certain nombre de variables prédictives images/eq82.png

qualitatives (par exemple, un traitement médical, emplacement des magasins de ventes, etc.), en l’occurrence dénommées facteurs, dont les différentes modalités ou niveaux représentent des groupes qui s’apparentent donc aux échantillons dont...

Modèles de régression linéaire

Les modèles de régression sont ceux qui traitent dans une logique exploratoire et surtout prédictive la relation entre une variable continue Y et p variables explicatives images/eq146.png

. Concrètement, on suppose qu’il existe une relation entre Y une variable continue et X = ( images/eq146.png

) qui se formalise de manière générale comme suit :

Réaliser une régression consiste à retrouver une formule de prévision Y par X, avec images/eq147.png

, le terme d’erreur ou résidu qui est une variable aléatoire totalement indépendante de X qui suit une loi normale images/eq148.png

et :

Où

, appelée fonction hypothèse (puisqu’on ne la connaît pas, elle juste supposée), capture l’information systémique de Y connaissant X ce qui se traduit par l’égalité suivante :

Et le reste est contenu dans le terme d’erreur images/eq150.png

. Ainsi, on comprend que pour que images/eq149.png

soit la plus représentative possible de images/eq151.png

(la prévision de Y), il faudrait que images/eq150.png

soit minimale.

Dans cette section, la régression linéaire sera abordée sous plusieurs aspects à travers des applications R.

1. Régression linéaire simple

a. Formalisation et estimation

On parle de régression linéaire simple ou encore de régression linéaire univariée quand il n’y a qu’une seule variable indépendante ou prédicteur X = ( images/eq152.png