Blog ENI : Toute la veille numérique !
💥 Offre spéciale Bibliothèque Numérique ENI :
1 an d'accès à petit prix ! Cliquez ici
🚀 Tous nos livres, vidéos et articles en illimité ! :
Découvrez notre offre. Cliquez ici

Analyser et comprendre vos données

Introduction

L’analyse statistique est un pilier fondamental de la Business Intelligence, transformant les données brutes en informations décisionnelles. Cette section pose les bases essentielles à la compréhension et à l’application des méthodes statistiques dans un contexte business.

Nous explorerons d’abord l’importance de l’analyse statistique en BI, soulignant son rôle dans la prise de décision éclairée et la détection de tendances. Ensuite, nous aborderons les concepts clés en statistiques, incluant les types de variables, les notions de population et d’échantillon, ainsi que les lois de probabilité fondamentales.

Ce chapitre ne prétend pas être un cours exhaustif de statistiques, mais plutôt un guide pratique destiné aux ingénieurs et analystes en Business Intelligence. Notre objectif est de vous fournir un ensemble d’outils et de techniques essentiels, facilement applicables dans votre travail quotidien. Nous commencerons par un bref rappel des concepts théoriques fondamentaux, puis nous nous concentrerons sur leur mise en œuvre concrète avec Python à travers des cas d’étude réels.

Cette approche pragmatique vous permettra de maîtriser rapidement les méthodes statistiques les plus pertinentes pour l’analyse de données en contexte professionnel.

1. Types de variables

Dans cette sous-section, nous allons définir les concepts clés que nous allons utiliser dans la suite de notre voyage sur l’analyse des données. Il existe plusieurs types de variables. Suivant leur type, nous ne nous servirons pas des mêmes outils pour les analyser et/ou les croiser. Nous rencontrerons deux types de variables :

  • Variable qualitative : une variable qualitative, également connue sous le nom de variable catégorielle, est une variable qui décrit une caractéristique ou une qualité non numérique. Elle est généralement exprimée en termes de catégories ou de groupes et ne peut pas être mesurée numériquement. Les variables qualitatives peuvent être nominales ou ordinales :

    • variable nominale : couleur des yeux (bleu, marron, vert) ;

    • variable ordinale : niveau d’éducation...

Statistiques descriptives

L’exploration statistique constitue une étape cruciale dans l’analyse de données, offrant un aperçu essentiel des caractéristiques numériques sous-jacentes. Dans cette section, nous plongeons dans l’analyse descriptive des variables numériques d’un ensemble de données, en examinant en profondeur les séries statistiques, les indicateurs de position et de dispersion. Nous explorerons également la distribution normale et les techniques de simulation de données pour mieux appréhender la nature des données. Une attention particulière sera portée à l’évaluation de la normalité des données ainsi qu’à la corrélation entre deux variables numériques, offrant ainsi une base solide pour des analyses statistiques plus avancées.

1. Analyse univariée

a. Indicateurs de position

Moyenne

Entrons un peu dans le détail. L’estimation de localisation la plus basique est la moyenne. La moyenne est la somme de toutes les valeurs, divisée par le nombre de valeurs. Vous rencontrerez le symbole (prononcé « x-barre ») utilisé pour représenter la moyenne d’un échantillon tiré d’une population. La formule pour calculer la moyenne pour un ensemble de valeurs est
images/eq02.png
Une variation de la moyenne est la moyenne tronquée. Pour la calculer, on commence par trier les valeurs, puis on supprime un nombre fixe de valeurs aux deux extrémités avant de calculer la moyenne des valeurs restantes. Si nous notons x1 la plus petite valeur et xn la plus grande valeur dans notre ensemble trié, la formule de la moyenne tronquée (où k valeurs sont omises à chaque extrémité) est
images/eq03.png
L’avantage de la moyenne tronquée est qu’elle limite l’influence des valeurs extrêmes. Un autre type de moyenne est une moyenne pondérée, que vous calculez en multipliant chaque valeur de données par un poids spécifié par l’utilisateur, puis en divisant leur somme par la somme des poids. La formule pour la moyenne pondérée est
images/eq04.png

Médiane et estimateur robustes

La robustesse des indicateurs statistiques est un aspect crucial en analyse de données, particulièrement...

Inférence statistique

1. Notion d’intervalle de confiance

L’intervalle de confiance est un concept fondamental en statistique inférentielle, jouant un rôle crucial dans l’estimation de paramètres de population à partir d’échantillons. Dans le contexte de la Business Intelligence, il offre un moyen rigoureux de quantifier l’incertitude associée aux estimations, permettant ainsi des prises de décision plus éclairées.

Un intervalle de confiance est une plage de valeurs, calculée à partir des données d’un échantillon, qui a une probabilité spécifiée de contenir la vraie valeur du paramètre de population. Par exemple, un intervalle de confiance à 95 % pour la moyenne d’une population signifie que si nous répétions l’échantillonnage et le calcul de l’intervalle de nombreuses fois, environ 95 % de ces intervalles contiendraient la vraie moyenne de la population.

Pour illustrer ce concept, considérons un exemple concret en Python. Imaginons que nous souhaitons estimer le chiffre d’affaires moyen par client d’une entreprise e-commerce :

import numpy as np 
from scipy import stats 
 
# Simulate revenue data per client 
np.random.seed(0) 
revenues = np.random.normal(loc=100, scale=20, size=1000) 
 
# Calculate the sample mean and standard deviation 
sample_mean = np.mean(revenues) 
sample_std_dev = np.std(revenues, ddof=1) 
 
# Calculate the 95% confidence interval 
sample_size = len(revenues) 
margin_of_error = stats.t.ppf((1 + 0.95) / 2, df=sample_size-1) *  
(sample_std_dev / np.sqrt(sample_size)) 
confidence_interval = (sample_mean - margin_of_error, sample_mean  
+ margin_of_error) 
 
print(f"Sample mean: {sample_mean:.2f}") 
print(f"95% confidence interval: {confidence_interval}") 

La sortie est :

Sample mean: 99.09 
95% confidence interval: 97.87, 100.32 

Dans cet exemple, nous calculons un intervalle de confiance à 95 % pour la moyenne des revenus par client. L’interprétation correcte de cet intervalle est cruciale : il ne signifie pas qu’il y a 95 % de chances que la vraie moyenne de la population se trouve dans cet intervalle, mais plutôt...

Techniques avancées d’analyse statistique

1. Régression linéaire simple et multiple

La régression linéaire est une technique fondamentale en statistiques et en apprentissage automatique, utilisée pour modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Elle est largement appliquée dans divers domaines tels que l’économie, la biologie, la psychologie et l’ingénierie pour prédire et comprendre les phénomènes linéaires.

a. Régression linéaire simple

La régression linéaire simple implique une seule variable indépendante (x) pour prédire une variable dépendante (y). Le modèle cherche à établir une relation linéaire entre ces deux variables, exprimée par l’équation :

images/eq06.png
Où y est la variable dépendante (à prédire), x est la variable indépendante (prédicteur), images/eq26.png est l’ordonnée à l’origine (intercept), images/eq13.png est la pente de la droite (coefficient de régression) et images/eq27.png est le terme d’erreur.
L’objectif est d’estimer les paramètres images/eq26.png et images/eq13.png de manière à minimiser la somme des carrés des résidus (différences entre les valeurs observées et prédites). Cette méthode est connue sous le nom de méthode des moindres carrés ordinaires (MCO).

Estimation des paramètres

Pour estimer images/eq26.png et images/eq13.png, on utilise les formules suivantes :
images/eq07.png
images/eq08.png
images/eq22.png et images/eq22b.png sont les moyennes de x et y respectivement.

b. Interprétation des coefficients

Dans le contexte des régressions linéaires, l’interprétation des coefficients s’articule autour de deux paramètres fondamentaux de l’équation y = ax + b. Le coefficient "a" (la pente) nous donne une information cruciale sur la relation entre nos variables : il représente la variation moyenne de notre variable dépendante y pour chaque augmentation d’une unité de notre variable indépendante x. Pour illustrer cela, si nous avons une pente a = 2, cela signifie qu’en moyenne, y augmentera de deux unités chaque fois que x augmente d’une unité. Quant au coefficient "b"...

Cas d’étude : A/B testing en marketing

1. Présentation du contexte et des objectifs

Dans le monde complexe du marketing digital, les entreprises cherchent constamment à optimiser leurs campagnes publicitaires. Pour ce faire, elles ont recours à une technique puissante : l’A/B testing. Cette méthode consiste à mener une expérience randomisée où deux ou plusieurs versions d’une variable (une page web, un élément de page, une bannière, etc.) sont présentées simultanément à différents segments d’audience. L’objectif est de déterminer quelle version a le plus d’impact et stimule le mieux les indicateurs commerciaux.

Les entreprises de marketing s’intéressent généralement à deux questions fondamentales :

  • La campagne sera-t-elle un succès ?

  • Si la campagne est réussie, quelle part de ce succès peut être attribuée aux publicités ?

Dans cette étude de cas, nous allons analyser un jeu de données issu d’une expérience A/B testing en marketing. Notre objectif sera de déterminer si les publicités ont été efficaces, d’estimer les revenus potentiels générés par ces publicités, et d’évaluer si la différence entre les groupes est statistiquement significative. 

2. Conception de l’expérience A/B

L’expérience a été conçue de la manière suivante :

  • Groupe expérimental (traitement) : la majorité des personnes a été exposée aux publicités.

  • Groupe de contrôle : une petite partie des personnes a vu une annonce de service public (PSA - Public Service Announcement) ou rien du tout, à l’endroit exact où la publicité aurait normalement été affichée.

Cette configuration permet de comparer directement l’effet des publicités par rapport à une situation où aucune publicité n’est affichée.

3. Collecte et préparation des données

Les données collectées pour cette expérience comprennent les variables suivantes :

  • Index : numéro de ligne ;

  • user...