Introduction
Data scientist, un métier à la mode
Certains groupes LinkedIn consacrés aux sujets de data sciences comportent plus de 100 000 personnes. Le matin où un des auteurs écrit ces lignes, une requête sur son compte LinkedIn lui indique que 83 000 personnes de son réseau direct (niveaux 1 et 2) revendiquent le titre de "data scientist", dont 18 000 en France.
Ce même matin, le site Indeed annonce plus de 1000 offres d’emploi de data scientist ou de spécialiste de l’IA sur Paris, contre 244 offres de trader.
Il est intéressant de noter que depuis la première édition de cet ouvrage, les chiffres précédents ont plus que doublé concernant les requêtes sur le terme "data scientist" et ont baissé sur le terme "trader".
Depuis plus d’un quart de siècle, nombreux sont les experts qui manipulent quotidiennement les concepts et les algorithmes au cœur des pratiques actuelles des nouveaux data scientists. Ces pratiques sont souvent issues de l’intelligence artificielle et de l’expérience opérationnelle des "quant" qui travaillent auprès des traders, des "actuaires" qui opèrent dans le monde des assurances, des biologistes ou tout simplement de tous les chercheurs qui doivent émettre et qualifier statistiquement des hypothèses avant...
Un nouveau métier : citizen data scientist
1. Un objectif réaliste, devenir citizen data scientist
Quelles sont les activités courantes d’un citizen data scientist, ou typiquement d’un data scientist intervenant dans un contexte "business" ?
Nous restreignons ce terme aux personnes peu ou prou formées à la data science ou aux data scientists très bien formés mais qui possèdent une grande affinité pour le "business" et exerçant dans le contexte défini comme suit :
-
leurs activités se situent hors des environnements industriels, scientifiques, de recherche, d’actuariat, ou de mathématiques de finance de marché,
-
leurs tâches se font en relation avec les métiers, l’informatique, d’autres spécialistes de la donnée et le cas échéant d’un "Chief Data Officer" ayant souvent un accès privilégié avec la direction de l’entreprise.
Ce profil particulier, mais courant, intervient sous des dénominations diverses au sein d’entité de maîtrise d’ouvrage ou d’assistance à maîtrise d’ouvrage dans de grandes organisations.
Les activités habituellement assumées par ces profils clés peuvent se synthétiser en quatre segments d’activité autour de l’usage de la data : Analyse et valorisation, Animation et spécification, Modélisation et inférence, Déploiement et maintien en conditions opérationnelles.
2. Analyse et valorisation
Pour valoriser statiquement les données, le citizen data scientist se contente souvent de l’utilisation de techniques issues de la Business Intelligence traditionnelle.
Il utilisera par exemple les outils de Data Visualization, de statistiques et de data-mining/clustering déjà disponibles dans des univers techniques comme les datawarehouses, l’OLAP (Online Analytical Processing) ou le reporting de données...
Les data sciences
Les data sciences comportent de nombreux aspects et concernent des champs d’études très variés.
On y trouve des techniques permettant de classer et trier les objets de notre monde, de prédire des évènements, de reconnaître des patterns ou des séquences d’information, d’identifier des règles sous-jacentes à des données, d’analyser des séries temporelles, d’interpréter des textes, de détecter des valeurs aberrantes ou des signaux faibles et d’analyser des graphes industriels ou des réseaux sociaux.
Le développement des data sciences a trouvé un nouvel essor dans les pratiques du Big Data, mais il serait erroné de les réduire à ce contexte.
En effet, les savoir-faire utilisés proviennent de disciplines relativement anciennes et interconnectées comme l’intelligence artificielle, la recherche opérationnelle, les statistiques et la linguistique.
Évidemment, ces disciplines sont servies par des mathématiques et une algorithmique puissantes.
Dans de nombreux ouvrages de qualité, les data sciences semblent se réduire aux captivantes techniques du "data-mining" et du "machine learning", à savoir la capacité de faire établir une classification ou une prédiction par un ordinateur. Ces aspects...
Le Big Data
Le Big Data apporte de nombreuses innovations à travers l’usage des data sciences allié à sa capacité native à traiter des volumes et des natures de données auparavant inaccessibles à nos calculateurs.
Cet ensemble de technologies ne se caractérise pas uniquement par le volume des données, mais aussi par leur nature parfois imprécise, incomplète, entachée d’erreurs variées et de phénomènes fugaces.
Les données traitées peuvent prendre des formes très diverses comprenant pêle-mêle des bases de données relationnelles ou pas, des fichiers structurés ou pas, des données textuelles dans diverses langues, des données multimédias...
Les données comportent divers liens temporels, logiques ou de causalité. On parle de séries temporelles (ex : cours de bourse), de graphes (ex : liens dans les réseaux sociaux), de séquences (ex : gènes), de règles (ex : "s’il pleut et que nous sommes samedi alors je vais au cinéma")...
Le Big Data représente l’ensemble des techniques (informatisées) qui nous permettent de gérer, d’exploiter et d’avoir des usages efficaces de ces données volumineuses et terriblement complexes.
Les data sciences permettent...
La dynamique de cet ouvrage
1. Nos objectifs
Une des ambitions de cet ouvrage, dans le cas d’une lecture exhaustive en s’appropriant chaque exemple, est de transmettre au lecteur les compétences d’un data scientist "junior", afin de le rendre totalement opérationnel.
Ce data scientist, formé au travers de l’ouvrage et de ses recherches complémentaires éventuelles sur le Web, sera à même de mettre au point des modèles de prédiction efficaces via l’usage du langage R de ses packages. Il utilisera une gamme limitée de techniques mais le fera à bon escient et aura une idée claire de ce qu’il lui faudra aborder pour continuer son parcours initiatique. Il disposera du vocabulaire et des concepts de base pour pouvoir dialoguer avec ses pairs et pour aborder la lecture des articles de recherche qu’il ne manquera pas de croiser dans sa future pratique. Il pourra se mesurer à ses pairs en concourant sur le site www.kaggle.com et être utile dans une équipe.
Chaque chapitre de cet ouvrage est indépendant. Il n’est pas indispensable d’avoir assimilé tout le contenu des chapitres précédents pour pouvoir en tirer profit. Pour faciliter une lecture non linéaire de l’ouvrage, nous n’avons pas hésité à introduire de légères redondances.
Si vous ne voulez pas apprendre R, pas de panique, contentez-vous de ne pas lire le code et effectuez un écrémage drastique du chapitre Premiers pas avec R, votre voyage ne sera pas 100 % opérationnel, mais permettra de vous construire une opinion et des réflexes très solides sur l’univers des datasciences.
L’ouvrage ne se veut pas académique, ce n’est pas une démonstration structurée allant du général au particulier ou allant de concepts de base à des concepts très ardus. Évidemment, l’ouvrage possède une dynamique propre, mais celle-ci n’est pas scolaire ou démonstrative de quoi que ce soit.
L’ouvrage est conçu comme un objet didactique où l’intuition du lecteur et la pratique de l’interprétation des données et des graphiques lui feront découvrir pas à pas le problème qui...
Petit bestiaire des data sciences
Les descriptions et les images suivantes ont pour seul objet de se familiariser avec le vocabulaire et les représentations souvent utilisées par les data scientists. Ne cherchez pas à construire un bel échafaudage logique à partir de ces informations, contentez-vous d’enrichir le nombre d’associations d’idées entre vos découvertes et vos connaissances antérieures.
1. Les fondamentaux
a. Apprentissage et classification
Une machine "apprend" quand son paramétrage évolue en fonction des circonstances.
L’apprentissage supervisé est l’application la plus directe de ce constat. Après avoir collecté des informations, on scinde chaque observation en deux parties, l’une dite explicative et l’autre expliquée. On choisit ensuite une mécanique calculatoire qui semble permettre de déduire les variables expliquées à partir des variables explicatives. La mise au point de ce modèle consiste alors à trouver le paramétrage de celui-ci qui semble être le plus efficace. Ce processus d’apprentissage est dit "supervisé" car il est sous le contrôle des variables expliquées de l’ensemble des données d’entraînement.
Quand on collecte de nouvelles observations ne possédant des valeurs connues que pour les variables explicatives, il suffit d’appliquer le modèle avec ses paramètres pour obtenir ce que l’on appelle élégamment une prédiction ou plus simplement une estimation.
Les autres formes d’apprentissages n’ont pas pour objet de prédire quelque chose, mais elles fournissent des estimations de patterns (c’est-à-dire des schémas identifiables et répétitifs) qui n’apparaissaient pas de prime abord.
En anglais on parle de machine learning. Les variables explicatives sont nommées au choix : features, attributes ou covariates. Les variables expliquées sont, elles, nommées response variables.
Quand on intervient sur un processus d’apprentissage en introduisant une information qui n’était pas disponible au début de celui-ci, cela s’appelle du renforcement de l’apprentissage.
Quand la variable expliquée...
Informatique professionnelle et data sciences
1. La technologie
Les plateformes logicielles Big Data sont déployées au travers d’offres open source ou propriétaires.
Il faut avoir en tête qu’il est possible de mettre en œuvre les solutions de datasciences sur les grands "cloud" (Amazon, Azure, IBM Cloud/BlueMix...), sachant que les contextes nécessitant le déploiement de très nombreux nœuds (typiquement des nœuds Hadoop) ne se prêtent pas facilement aux implémentations sur le cloud.
Concentrons-nous sur les outils open source déployables au sein même d’une organisation (on-premises).
L’écosystème Big Data le plus connu se nomme Hadoop. La fondation Apache abrite les suites logicielles correspondantes ainsi que de nombreuses autres suites logicielles : https://www.apache.org/.
Apache
Voici certains composants de la fondation Apache particulièrement centraux et utiles, parmi une liste trop longue pour être étudiée en détail ici :
-
Hadoop est un système distribué, qui comprend un système de fichiers distribué et redondant nommé HDFS (le facteur de redondance des données est d’au moins 3) et l’implémentation d’un algorithme de parallélisation extrêmement efficace nommé Mapreduce.
-
HDFS peut permettre l’accès à des fichiers textes ou .csv (format Excel) dans des conditions de performances extraordinaires, quelle que soit leur taille. D’ailleurs, l’utilisation de cette technologie n’a de sens que pour des fichiers relativement volumineux. HDFS peut également abriter les fichiers de diverses bases de données.
-
HBase est une base colonne, très efficace en temps réel dans le cadre du Big Data, qui peut gérer des tables comportant des milliards de lignes et des millions de colonnes.
-
Hive est un entrepôt de données (datawarehouse) compatible avec un stockage distribué, ce qui n’était pas dans les standards des autres technologies de datawarehouse. Hive comporte des outils de chargement et transformation de données de type ETL (Extract, Transform, Load).
-
Lucene est un système de recherche de topiques dans des textes aux performances élevées....
Notations
Les différences de notations entre les auteurs, leurs habitudes ou les usages propres à la description d’un problème donné peuvent vous troubler et ralentir votre compréhension, nous allons donc aborder le thème des notations mathématiques à plusieurs reprises dans cet ouvrage.
Pour évoluer dans les data sciences, vous n’avez pas forcément besoin d’un bon niveau en mathématiques, cela dépend de vos missions et de vos ambitions, mais vous aurez de toute façon besoin de lire et d’interpréter des textes comprenant des expressions mathématiques parfois un peu abstraites. Si vous n’êtes pas formé aux mathématiques du supérieur, considérez cela comme l’apprentissage d’une langue, qui vous permettra d’accéder à la pensée des auteurs que vous lirez.
Nous allons nous focaliser en premier lieu sur les différentes façons de noter les paramètres et l’expression d’une régression linéaire. L’entreprise est un peu pénible, mais après cela vous pourrez accéder à de nombreuses lectures sans être dérouté par la notation.
1. Notations des paramètres
Concernant les paramètres, les notations diffèrent suivant les circonstances, les habitudes et les auteurs, ne vous laissez pas impressionner, en particulier par les lettres grecques !
Nos a, b, c, d... deviendront parfois :
-
a1, a2, a3, a4... ou (aj) en notation plus compacte. Parfois, on préfère commencer à l’indice 0 pour différencier le paramètre qui n’est pas multiplié à une variable, ce qui donnerait pour la régression linéaire simple :...
À vous de jouer !
Tout est dit... vous pouvez accéder au code de cet ouvrage depuis la page Informations générales. Les auteurs seront enchantés de répondre à vos questions. N’hésitez pas à les contacter, par exemple par le biais des Éditions ENI ou par LinkedIn.