Avant-propos

Introduction

Introduction à R

Introduction
R, un langage statistique
1. 1. Histoire de R
2. 2. Les caractéristiques de R
3. 3. Installer une distribution R
  1. a. R-Project de CRAN
  2. b. Autres distributions R
Quelques IDE pratiques
1. 1. RStudio
  1. a. Téléchargement et installation
  2. b. Exploration de RStudio Desktop
  3. c. Créer un projet avec RStudio
2. 2. Outils R pour Visual Studio (RTVS)
  1. a. Installation de RTVS avec VS 2017
  2. b. Découverte de RTVS

Types de variables et opérations R

Introduction
Session interactive R
1. 1. La console R
  1. a. Exécution d’une instruction
  2. b. Commentaire R
  3. c. Configuration des sorties ou affichage des résultats
  4. d. Quitter la console
2. 2. L’aide interactive R
  1. a. L’aide de base
  2. b. Les vignettes et démonstrations
Les variables R
1. 1. Création de variables
2. 2. Variables et espace de travail
  1. a. Le cycle de vie des variables
  2. b. Gestion de l’espace de travail
3. 3. Les noms de variables et mots réservés
  1. a. Les noms de variables
  2. b. Les mots réservés
4. 4. Les constantes natives R
Types de vecteur atomique
1. 1. Les nombres
  1. a. Créer des objets numériques
  2. b. Créer des nombres complexes
  3. c. Opérateurs et opérations arithmétiques
2. 2. Les chaînes de caractères
3. 3. Les booléens
Les dates et heures
1. 1. La classe Date
  1. a. Création des dates
  2. b. Les opérations sur les dates
2. 2. La classe POSIXt
  1. a. Création d’objet POSIXct et POSIXcl
  2. b. Opération sur les objets POSIXt
Les valeurs ou données spéciales
1. 1. Les valeurs manquantes ou Missing data
2. 2. Inf ou infini
3. 3. NaN ou « Not a Number »
4. 4. NULL
Les packages
1. 1. Gestion des packages
  1. a. Télécharger et installer un package
  2. b. La mise à jour et la suppression des packages
2. 2. Charger et décharger un package
  1. a. Charger le package dans l’environnement
  2. b. Solliciter le package sans le charger
  3. c. Décharger un package
3. 3. Création de package

Structure des données avec R

Introduction
Les vecteurs
1. 1. Création de vecteur
2. 2. Manipulations d’un vecteur
  1. a. Indexation numérique d’un vecteur
  2. b. Indexation booléenne d’un vecteur
  3. c. Indexation nommée d’un vecteur
  4. d. Quelques fonctions d’extraction ou d’indexation
3. 3. Travailler avec des vecteurs numériques
  1. a. Générer des vecteurs séquentiels
  2. b. Les opérations sur les vecteurs numériques
4. 4. Créer des séries de dates
5. 5. Les fonctions de vecteur de chaînes de caractères
  1. a. La fonction paste()
  2. b. La fonction cat()
  3. c. La fonction sprintf()
  4. d. La fonction nchar()
  5. e. Les fonctions substr() et substring()
  6. f. Les fonctions toupper() et tolower()
  7. g. Les fonctions chartr() et replace()
  8. h. La fonction strsplit()
  9. i. Les fonctions grep() et grepl()
  10. j. Les fonctions regexpr() et gregexpr()
  11. k. La fonction gsub()
6. 6. Cas des vecteurs booléens
7. 7. Autres opérations génériquessur les vecteurs
  1. a. Suppression de doublons
  2. b. Les opérations ensemblistes
  3. c. La gestion de valeurs manquantes
Les matrices
1. 1. Construction d’une matrice
  1. a. Le constructeur matrix()
  2. b. Combiner des vecteurs en matrice
  3. c. Convertir un objet en matrice
2. 2. Dimension d’une matrice
3. 3. Nommer les lignes et colonnes d’une matrice
4. 4. Manipuler une matrice
  1. a. Indexation numérique des matrices
  2. b. Indexation booléenne des matrices
  3. c. Indexation par les noms des colonnes et des lignes
5. 5. Calculs matriciels
  1. a. Opérations arithmétiques
  2. b. Les multiplications matricielles
  3. c. Les matrices spéciales
  4. d. La transposée, le déterminant etl’inverse d’une matrice
  5. e. Valeurs et vecteurs propres d’une matrice
  6. f. Décomposition d’une matrice
Les tableaux multidimensionnels avec array()
1. 1. Création d’un tableau multidimensionnel
2. 2. Nommer un tableau multidimensionnel
3. 3. Extraction d’éléments d’un tableaumultidimensionnel
Les facteurs ou variables catégoriels
1. 1. Création d’un facteur
2. 2. Modification des modalités d’unfacteur
3. 3. Cas des variables ordinales
4. 4. Cas des variables continues
5. 5. Les variables catégorielles et la fonctiontable()
6. 6. Les dates et la fonction factor()
Les data frame
1. 1. Description d’un data frame
2. 2. Construction d’un data frame
3. 3. Dimension d’un data frame
4. 4. Nommer les colonnes et lignes d’un data frame
5. 5. Manipulation d’un data frame
  1. a. Extraction de colonnes ou variables
  2. b. Extraction des lignes ou des individus
  3. c. Extraire un élément ou une valeurquelconque
  4. d. Ajout de colonnes ou de lignes dans un data frame
  5. e. Suppression des colonnes ou de lignes
  6. f. Empiler et désempiler un data frame
  7. g. La transposition de data frame avec reshape()
  8. h. Le tri d’un data frame
  9. i. La fonction aggregate()
  10. j. La fonction summary()
  11. k. La fonction by()
  12. l. La famille des fonctions apply()
Les listes
1. 1. Construction d’une liste
2. 2. Indexation des objets d’une liste
  1. a. Extraction à l’intérieur des crochetsou doubles crochets
  2. b. Extraction avec l’opérateur dollar $
  3. c. Extraction avec la structure attach() … detach()

La programmation avec R

Introduction
Les structures de contrôle
1. 1. Les structures de groupage d’instructions
  1. a. Le point-virgule
  2. b. Les accolades
2. 2. Les structures conditionnelles
  1. a. La structure if...else
  2. b. La structure switch()
3. 3. Les structures de répétition ouboucles
  1. a. La boucle for et les commandes break, next
  2. b. La boucle while
  3. c. La boucle repeat ... break
Les fonctions
1. 1. Création d’une fonction
2. 2. Les arguments par défaut
3. 3. La commande return()
4. 4. Les fonctions avec des arguments ... (indéfinis)
5. 5. Les fonctions avec do.call()
6. 6. Les fonctions anonymes
7. 7. Les fonctions replacement
8. 8. Les fonctions infixes
9. 9. Les fonctions récursives
L’environnement R et la portée des objets
Optimisation du code
1. 1. La vectorisation
  1. a. La fonction apply()
  2. b. La fonction sapply() ou lapply() et mapply()
  3. c. La fonction rapply()
  4. d. La fonction tapply()
  5. e. La fonction eapply()
  6. f. La fonction replicate()
2. 2. R et le langage C/C++
3. 3. Gestion des exceptions et des erreurs
  1. a. Alerter sur une erreur
  2. b. Gérer les exceptions avec try()
  3. c. Gérer les exceptions avec tryCatch()
La programmation orientée objets (POO) avec R
1. 1. Classe S3
  1. a. Définition d’une classe
  2. b. Définir un constructeur
  3. c. Définir des méthodes membres d’uneclasse
  4. d. Modèle UML de la classe stock()
2. 2. Classe S4
  1. a. Définition de la classe et ses attributs
  2. b. Constructeur new()
  3. c. Définir les méthodes membres declasses
3. 3. Classe R5 ou RC
  1. a. Créer une classe R5 ou RC
  2. b. Les méthodes membres de la classe
Conception de package ou R
1. 1. Structure d’un package
  1. a. Installer les outils
  2. b. Générer l’architecture du package
2. 2. Le fichier DESCRIPTION
3. 3. Doter le package de jeux de données
  1. a. Créer le dossier data
  2. b. Documenter les jeux de données
4. 4. Ajouter les fonctions
5. 5. Créer une vignette
6. 6. Documenter le package
7. 7. Installer et utiliser le package
8. 8. Partager le package

Importer et exporter des données avec R

Introduction
Saisir/éditer les données depuis le clavier
1. 1. Les fonctions readline(), scan() et readClipboard()
  1. a. La fonction readline()
  2. b. La fonction scan()
  3. c. La fonction readClipboard()
2. 2. La fonction textConnection()
3. 3. Les fonctions edit()/fix() et la fonctiondata.entry()
  1. a. La fonction edit()
  2. b. La fonction fix()
  3. c. La fonction data.entry()
Accéder aux données depuis un fichier de données
1. 1. Fichier texte délimité
  1. a. La fonction read.table()
2. 2. Fichier CSV
3. 3. Fichier Excel
  1. a. Package xlsx
  2. b. Package XLConnect
  3. c. Package readxl
4. 4. Fichier XML
  1. a. Analyse de la structure d’un fichier XML
  2. b. La conversion en data frame
5. 5. Fichier JSON
Importer des données d’autres logiciels d’analyse de données
1. 1. Logiciel IBM SPSS : *.sav
  1. a. Le package foreign
  2. b. Le package haven
2. 2. Logiciel SAS : *.sas7bdat
  1. a. Le package sas7bdat
  2. b. Le package haven
3. 3. Logiciel Stata : *.dta
4. 4. Le logiciel MATLAB : *.mat
Télécharger des données depuis le Web
1. 1. Télécharger un fichier de donnéesgrâce à l’URL
2. 2. Extraire les données d’un tableau HTML
3. 3. Importer spécialement des donnéesfinancières
Accéder aux données depuis une base de données
1. 1. Base de données MySQL
  1. a. Le package RMySQL
  2. b. Le package RODBC
2. 2. Base de données Microsoft Access
3. 3. Importer de gros volumes de données
  1. a. Le package data.table
  2. b. Le package readr
  3. c. Le package sqldf
Exporter des données
1. 1. Fichier texte délimité
2. 2. Fichier CSV
3. 3. Fichier Microsoft Excel
4. 4. Exporter les données sous les formats dedonnées R
  1. a. Les fonctions save() et save.image()
  2. b. Les fonctions dput() et dump()
5. 5. Exporter des données sous des formats lisibles par d’autres logiciels statistiques
  1. a. Le package haven
  2. b. Le package foreign

Introduction à l'analyse de données

Introduction
Préparation des jeux de données
1. 1. Charger et comprendre les données
2. 2. La gestion des données manquantes
  1. a. Inspecter l’existence des données manquantes
  2. b. Le traitement des données manquantes
Analyse descriptive des variables quantitatives
1. 1. Cas univarié
  1. a. Mesures de tendance centrale
  2. b. Mesures de dispersion
  3. c. Mesures de forme
  4. d. Indice de Gini et Courbe de Lorenz
  5. e. Les fonctions sommaires des indicateurs
2. 2. Cas bivarié
  1. a. La covariance
  2. b. Le coefficient de corrélation
Analyse descriptive des variables catégorielles
1. 1. Tableaux statistiques pour les variables catégorielles
  1. a. Les tableaux de fréquences
  2. b. Les tableaux de contingence
2. 2. Statistique des tableaux de contingence
  1. a. Les tableaux de fréquences et les statistiquesmarginales
  2. b. Le package prettyR
  3. c. Sommaire statistique avec les variables catégorielles
Visualisation graphique des données
1. 1. Explorer le package ggplot2
  1. a. Aperçu graphique rapide avec qplot()
  2. b. Graphique avancé avec ggplot()
2. 2. Visualisation graphique avec ggplot2
  1. a. Diagramme en barres
  2. b. Diagramme en secteurs
  3. c. Histogramme
  4. d. Boxplot ou diagramme en boîte à moustache
  5. e. Graphique à lignes
  6. f. Graphique à nuage de points
  7. g. Matrice de corrélation avec GGally
  8. h. Autres fonctions statistiques

Probabilité et inférence paramétrique

Introduction
Simulation
1. 1. Probabilité et dénombrement
  1. a. Arrangement
  2. b. Permutation
  3. c. Combinaison
2. 2. Tirage aléatoire d’échantillon
  1. a. La fonction sample()
  2. b. La reproductibilité des valeurs aléatoires
  3. c. Répétition d’une expérienceavec replicate()
3. 3. Notion de variable aléatoire
  1. a. Cas d’une variable aléatoire discrète
  2. b. Cas d’une variable aléatoire continue
4. 4. Les fonctions R des distributions de probabilité
  1. a. Vocabulaire des fonctions de distribution R
  2. b. Tables des lois et leur équivalent R
5. 5. Quelques lois de densité univariées
  1. a. La loi Normale
  2. b. La loi de Student ou T- distribution
  3. c. La loi de Khi-deux
  4. d. La loi de Fisher
6. 6. Le théorème central limite
Estimation par intervalle de confiance
1. 1. Intervalle de confiance d’une moyenne
  1. a. Formulation
  2. b. Application avec R
2. 2. Intervalle de confiance d’une médiane
  1. a. Formulation
  2. b. Application avec R
3. 3. Intervalle de confiance d’une proportion
  1. a. Formulation
  2. b. Application avec R
4. 4. Intervalle de confiance d’une variance
  1. a. Formulation
  2. b. Application avec R
Tests d'hypothèses
1. 1. Terminologie
  1. a. Formulation d’un test
  2. b. Les types d’erreurs et puissance d’un test
  3. c. La statistique du test et la p-value
2. 2. Tests d’indépendance
  1. a. Test de Khi-deux
  2. b. Test de Khi-deux avec correction de Yates
  3. c. Simulation de Monte-Carlo
  4. d. Test de Fisher exact
3. 3. Tests d’hypothèses de la moyenne
  1. a. Test de conformité
  2. b. Test de comparaison de deux échantillonsindépendants
  3. c. Test de comparaison de deux échantillonsappariés
  4. d. ANOVA
4. 4. Tests d’hypothèses de la proportion
  1. a. Test de conformité
  2. b. Test de comparaison à échantillonsindépendants
5. 5. Tests d’hypothèses de la variance
  1. a. Test de conformité
  2. b. Test de comparaison pour deux échantillons
6. 6. Tests d’hypothèse de la corrélation
  1. a. Test de conformité
  2. b. Test de comparaison
7. 7. Analyse de puissance
  1. a. Les fonctions R
  2. b. Les fonctions du package pwr
8. 8. Tests non paramétriques
  1. a. Test de normalité Shapiro-Wilk
  2. b. Test de distribution de Kolmogorov-Siminorov
  3. c. Test d’ajustement de X<sup class="superscript">2</sup>
  4. d. Test de corrélation de Kendall et de Spearman
  5. e. Test d’égalité de variance de Bartlett
  6. f. Le test U de Mann-Whitney ou test de somme de rangsde Wilcoxon
  7. g. Test de Kruskall-Wallis
Méthodes de rééchantillonnage
1. 1. Boostrap
  1. a. Démarche
  2. b. Illustration avec le package boot
2. 2. Jackknife
  1. a. Démarche
  2. b. Illustration avec le package boostrap

Modèles statistiques classiques

Introduction
Analyse de la variance (ANOVA)
1. 1. Expression de modèles avec les objets formula
  1. a. Formulation d’un modèle
  2. b. Les opérateurs R pour l’expression de relations
  3. c. Quelques opérations et fonctions utiles auxobjets formula
2. 2. ANOVA à un facteur ou simple entrée
  1. a. Modèle et hypothèses
  2. b. ANOVA à un facteur avec R
  3. c. Tests « post-hoc »
3. 3. ANOVA à double facteur ou entrée
  1. a. ANOVA à deux facteurs avec R
  2. b. Tests « post-hoc »
Modèles de régression linéaire
1. 1. Régression linéaire simple
  1. a. Formalisation et estimation
  2. b. Modèle de régression linéairesimple avec R
  3. c. Sommaire du résultat de lm()
  4. d. Diagnostic de la régression
  5. e. Détection des points ou observations atypiques
  6. f. Prédiction
2. 2. Régression linéaire multiple
  1. a. Formalisation et estimation
  2. b. Régression linéaire multiple avecR
3. 3. Sélection de variables et choix du modèle
  1. a. Les indicateurs ou critères de sélection
  2. b. Algorithmes de sélection
  3. c. Application avec R
4. 4. Problème de colinéarité etrégressions robustes
  1. a. Définition et détection de la colinéarité
  2. b. Les régressions régularisées
  3. c. Les régressions régulariséesen pratique
  4. d. La régression sur composantes principales

Conclusion

Conclusion

26/07/2024Version papier

Bon produit

Kadjo Raphael K

28/09/2022Version papier

bien, Il faudrait des bibliothèques/package qui n'obligent pas l'utilisateur à installer un complément JAVA, PERL ou autre. La protection informatique nous empêche de les utiliser. Par exemple, pour les exports en xlsx, j'ai trouvé une bibliothèque simple mais ce serait bien d'avoir un livre dédié aux packages indépendants pour R.

Anonyme

01/04/2022Version papier

Parfait !

Anonyme

02/06/2021Version en ligne

Très satisfait pour le contenu. Pour la forme, un petit bémol. J'aurais aimé pouvoir le lire avec la même mise en page que la version papier.

Anonyme

Daname KOLANI

Consultant scientifique chez EphiQUANT Sarl, Daname KOLANI dispense des formations en statistique, en finance, économétrie et bien des domaines connexes aux sciences des données.

Vincent ISOZ

Consultant scientifique chez Scientific Evolution Sarl, Vincent ISOZ exerce depuis plusieurs années dans le conseil et la formation sur les techniques quantitatives pour les hauts potentiels.