Blog ENI : Toute la veille numérique !
🐠 -25€ dès 75€ 
+ 7 jours d'accès à la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Power Query et M
  3. Acquérir les données
Extrait - Power Query et M Extraire et préparer les données en vue de leur exploitation dans Excel ou Power BI
Extraits du livre
Power Query et M Extraire et préparer les données en vue de leur exploitation dans Excel ou Power BI
9 avis
Revenir à la page d'achat du livre

Acquérir les données

Introduction

Organisation des fichiers exemples et des sources

L’ensemble des manipulations illustrées dans cet ouvrage utilisent Power Query à partir de Power BI. Elles restent valables dans les autres outils.

Dans ce chapitre, je vous propose d’utiliser des fichiers sources (.xlsx, .txt, .accdb, etc.) que vous trouverez dans le répertoire sources disponible en téléchargement.

Je vous recommande de copier ce répertoire sources directement à la racine de C:\.

Pour chaque chapitre, vous retrouverez un répertoire correspondant (ex : chapitre2), dans lequel vous trouverez l’état initial du document Power BI pour vous permettre de réaliser les manipulations (ex : source01.pbix), ainsi que l’état final (ex : source01_final.pbix). 

Les principes généraux

Le cycle de travail relatif à l’acquisition des données repose sur un schéma général :

  • La première étape, en amont, consiste à se familiariser avec la ou les sources de données. Il faut savoir où se trouve l’information utile, sous quelle forme elle est stockée. Facile lorsque vous êtes à l’origine du fichier (par exemple, un fichier Excel avec lequel vous travaillez régulièrement), mais beaucoup moins évident lorsque vous vous attaquez à une base...

Les sources de type fichier

Paradoxalement, les fichiers « simples », Excel, Txt, PDF et autres sont ceux qui demandent le plus important travail de préparation, à l’inverse de sources plus complexes, comme peuvent l’être des bases de données.

La raison en est simple : ces dernières sont des espaces structurés, où l’information a été préparée au moment de son stockage. Elle est notamment organisée sous forme de tables et de colonnes, ce qui est très propice à son exploitation. Les données extraites de bases peuvent le plus souvent être importées telles quelles dans Power BI.

Au contraire, lorsqu’elle provient d’une source locale (autrement dit de fichiers souvent personnels), l’information peut avoir été structurée de telle sorte que son utilisation dans Power BI est impossible (je pense par exemple à un tableau croisé). Elle peut par ailleurs présenter des modes de saisie aléatoires, des « trous », des données de types mixtes (des dates ou des chiffres mélangés avec du texte, des zones texte dans différentes casses, par exemple).

Fichier Excel

Parmi les types de fichiers source, Excel, outre qu’il est très couramment utilisé, présente un grand nombre de cas de figure. Dans les sections qui suivent, je vous propose de découvrir différentes situations courantes.

Une feuille dans un fichier

C’est le cas le plus simple. Mais pourquoi importer des données d’une feuille Excel dans un modèle de données (Power BI ou Power Pivot) ? C’est que ce dernier n’a pas les limites que rencontre une feuille Excel en termes de nombres de lignes pouvant être manipulées, et qu’il est à ce titre bien plus performant.

Pour importer une feuille Excel :

 Dans la collection, ou dans le ruban Accueil, choisissez le connecteur Excel et cliquez sur Se connecter.

 Naviguez jusqu’à l’emplacement du fichier.

 Cliquez sur le fichier source01.xlsx pour le choisir (comme tous les fichiers sources, il est disponible dans le répertoire sources), puis cliquez sur Ouvrir.

images/02sob03.png

 Cochez la case à la gauche du nom de la feuille. Power Query vous offre...

Les base de données

Power Query offre une très large gamme de connecteurs à des bases de données, agnostique (elle couvre les bases Microsoft, bien sûr, mais va bien au-delà - Oracle, SAP, DB2, etc.), et est de plus en constante évolution (ajout mensuel de nouveaux connecteurs).

L’accès aux données stockées dans une base se caractérise par quatre points :

  • Trouver les bonnes données et les tables associées peut s’avérer complexe, et justifie un travail en amont plus important, souvent avec l’aide des administrateurs des bases.

  • La préparation des données est en revanche plus simple, voire inutile, car les données stockées sont le plus souvent « propres ».

  • Accéder à une base permet de faire appel à des procédures stockées, qui peuvent être très poussées en termes d’automatisme.

  • La procédure d’accès est quasiment la même, quelle que soit la base.

Je vais donc me contenter dans ce chapitre de décrire l’accès à deux bases : Access et SQL Server.

Pour une procédure propre à la base dont vous disposez, je vous renvoie au site de l’éditeur : https://docs.microsoft.com/fr-fr/power-query/connectors/, où vous trouverez la liste complète et mise à jour des différents connecteurs.

Base Access

La connexion à une base de données Access ressemble en tous points à la connexion à un fichier Excel : une fois indiquée le nom de la base (et le cas échéant, les informations de connexion, compte utilisateur et mot de passe), Power BI affiche l’ensemble des tables pour vous permettre d’en sélectionner une ou plusieurs.

 Lancez Power BI.

 Dans la collection, choisissez le connecteur Access et cliquez sur Se connecter.

 Naviguez jusqu’à l’emplacement du fichier.

 Cliquez sur le fichier source12.accdb...

Les sources web

L’extraction de données issues du Web a pris énormément d’ampleur, et Power BI accompagne ce mouvement, en proposant quatre possibilités pour récupérer l’information, de la plus simple à celle qui va vous amener à travailler le code de la requête, en passant par l’aide qu’apporte l’IA de Power BI.

Extraire les fichiers d’un dossier SharePoint

L’extraction de fichiers d’un dossier SharePoint ressemble en tout point à son équivalent sur un dossier local (connecteur Dossier). Il vous suffira de préciser l’adresse du dossier.

 Lancez Power BI.

 Dans la collection, choisissez le connecteur Dossier SharePoint et cliquez sur Se connecter.

images/02sob35-b.PNG

 Entrez l’adresse du dossier :

images/02sob35-c.PNG

Vous devrez peut-être à ce moment-là vous identifier (si ce n’est pas déjà le cas).

 Vous accédez ensuite au contenu du dossier, que vous pouvez combiner et charger, ou combiner et transformer :

images/02sob35-d.PNG

Extraire un tableau d’une page web

C’est l’exemple d’extraction le plus basique.

Si la page dont vous fournissez l’adresse présente explicitement un ou plusieurs tableaux, le connecteur web de Power BI va les identifier et vous n’aurez qu’à choisir dans la liste celui ou ceux qui vous intéressent.

Cette technique a déjà été décrite dans mon précédent ouvrage, j’en ferai donc juste un bref rappel :

 Ouvrez Power BI et cliquez sur Obtenir les données et cherchez le connecteur Web.

images/02sob37.PNG

Vous trouverez le connecteur Web classé dans la catégorie Autre

 Saisissez ou collez l’adresse https://fr.wikipedia.org/wiki/Population_mondiale dans la fenêtre, puis validez :

images/02sob38.PNG

 Si la question vous est posée (ce n’est pas toujours le cas), utilisez l’accès anonyme et cliquez sur Se connecter.

Power BI analyse la page et vous propose l’ensemble des tableaux HTML (identifiés par le langage HTML) ou suggérés (par l’IA de Power BI).

 Sélectionnez, par exemple, Part de chaque région dans la population mondiale (%) et cliquez sur Charger.

images/02sob39.PNG

Dans cet exemple, vous remarquerez que les en-têtes de colonnes n’ont pas été...

Les sources de données de la Power Platform

Power BI et Power Query sont en quelque sorte la partie la plus visible d’une importante plateforme de Microsoft : la Power Platform connaît un essor vertigineux, et concentre d’énormes efforts de développement.

Je me contenterai dans cet ouvrage d’évoquer les aspects les plus directement liés à Power Query.

images/02sob49.PNG

Les connecteurs de la Power Platform

Les jeux de données

Lors de la publication d’un rapport Power BI sur Power BI Service (la plateforme en ligne permettant la publication et la distribution des rapports), deux objets sont créés : le rapport lui-même, mais aussi le jeu de données sur lequel s’appuie le rapport. Autrement dit, le résultat du processus de connexion et de préparation des données dans Power Query (ainsi que le travail sur le modèle dans Power BI).

La mise à disposition du jeu de données permet à tous les utilisateurs y ayant accès de créer directement des rapports, et de ne pas avoir à repasser par la phase de connexion et de préparation : autant dire que dans un ouvrage consacré à Power Query, s’intéresser au jeu de données revient à voir comment on s’y connecte.

Si vous avez accès à des jeux de données, pour être en mesure de les utiliser :...

Changer la source de données d’une requête

Dans certaines situations la source de données peut changer de nom ou d’emplacement. Il peut être utile de savoir modifier le chemin d’accès à celle-ci.

Pour cela, dans l’interface de Power BI, dans le ruban Accueil :

 Ouvrez le menu déroulant Transformer les données.

 Cliquez sur Paramètres de la source de données.

images/02sob57.PNG

 Sélectionnez la source que vous souhaitez modifier et cliquez sur Changer la source… (en bas à gauche de la fenêtre).

images/02sob58.PNG

 Cliquez ensuite sur Parcourir… pour indiquer l’emplacement ou le nom de la nouvelle source.

images/02sob59.PNG

Dans cette fenêtre, vous ne pouvez changer qu’une source de données à la fois : imaginez une situation où vous avez une dizaine de sources pointant sur un disque (C:\ par exemple), et que toutes migrent vers un autre disque (D : \). L’opération peut être fastidieuse : nous verrons dans le chapitre Exploiter la puissance de Power Query qu’un peu de code M peut accélérer et alléger cette tâche.

Un autre cas de figure peut se présenter : le besoin de basculer rapidement d’une source (mettons, un environnement de développement) vers une autre (environnement de production) et vice-versa : là aussi, nous verrons que M est très...

Exporter et partager une source de données

Dans la fenêtre Paramètres de la source de données (section précédente), vous remarquerez la fonctionnalité Exporter PBIDS.

Un fichier PBIDS est en quelque sorte un modèle de fichier Power BI (.PBIX) qui ne contient que les informations de connexion.

Ce fichier peut être distribué à d’autres utilisateurs. Lorsque ceux-ci ouvrent le PBIDS, la connexion est automatiquement établie, et le navigateur s’ouvre, permettant le choix de la ou des tables.

Ainsi, si vous ouvrez le fichier PBIDS correspondant au document source12.pbix créé à partir de la base Access, vous obtenez directement la liste des tables de la base, sans avoir à construire la connexion :

images/02sob60.PNG

Vous pouvez par ailleurs ouvrir un fichier PBIDS avec un éditeur de texte pour y apporter des modifications si vous le souhaitez. Voici le contenu du fichier que nous avons utilisé :

{ 
 "version": "0.1", 
 "connections": [ 
 
   { 
     "details": { 
       "protocol": "file", 
       "address": { 
         "path": "c:\\sources\\source12.accdb" 
       }, 
 
 ...

Épingler une source de données

Une source de données que vous avez créée peut être épinglée, c’est-à-dire mémorisée pour être facilement réutilisable. Elle apparaît alors en tête de la liste des sources de données récentes.

Pour épingler une source :

 Ouvrez le menu déroulant Sources récentes du ruban Accueil, et cliquez tout en bas sur Plus.

 Parcourez la liste de sources récentes et cliquez sur l’épingle à la droite de celle que vous souhaitez mémoriser :

images/02sob61.PNG

La source apparaît dès lors en haut de cette liste et y restera tant que vous ne la retirerez pas :

images/02sob62.PNG