Utiliser l'IA dans Fabric
Une brève introduction à l’IA et les outils Microsoft associés
1. Microsoft, du Data Mining à la générative IA, un peu d’histoire
Microsoft s’intéresse depuis plusieurs années au monde du « prédictif », à savoir comment intégrer des algorithmes dans les solutions de données.
Le data mining, ou exploration de données, est un processus analytique conçu pour explorer de grandes quantités de données (souvent des données d’entreprise) à la recherche de modèles cohérents et/ou de relations systématiques entre des variables, et pour valider les modèles à l’aide de données statistiques. En termes simples, il s’agit d’extraire des informations utiles à partir de grandes quantités de données.
Le data mining est apparu dans les années 1990, avec le développement et la commercialisation des premiers outils logiciels. Microsoft a intégré des fonctionnalités de data mining dans ses produits, notamment avec SQL Server. Par exemple, Microsoft SQL Server Data Mining fournit un environnement intégré pour la création et la gestion de modèles de data mining.
De nombreux autres fournisseurs de bases de données et de logiciels analytiques ont également commencé à offrir des outils de data mining autour de la même période. Des entreprises comme SAS et IBM avec SPSS sont connues pour leurs solutions analytiques avancées qui incluent ce concept.
Nous retrouvons les premiers documents publiés par Microsoft Research en 1998, ceux-ci sont disponibles ici : https://www.microsoft.com/en-us/research/project/data-mining/publications/
Une publication importante est faite en 2000 par un groupe de spécialistes Microsoft, dont Amir Netz aujourd’hui l’une des personnes les plus influentes dans l’évolution de Microsoft Fabric, sur l’intégration du data mining dans les bases de données relationnelles (Integration of Data Mining and Relational Databases).
Le document est disponible en téléchargement : https://go.fabricbook.fr/ch11-1
Ce document discute de l’intégration de l’exploration de données et des systèmes...
Comprendre les services IA dans Microsoft Fabric
1. Introduction aux Microsoft AI Services
Les services Azure AI, anciennement appelés Azure Cognitive Services, permettent de créer rapidement des applications intelligentes, innovantes, prêtes pour l’intégration avec des API sur des modèles de Machine Learning préconstruits et personnalisables.
La mise à disposition de ces services dans un format « à la demande » facilite le travail des développeurs même s’ils n’ont pas de compétences ou de connaissances directes en IA ou en science des données.
Microsoft Fabric propose deux options pour utiliser les services IA d’Azure :
-
les modèles IA préconstruits dans Fabric, qui s’intègrent facilement avec les services IA d’Azure et permettent d’enrichir les données avec des modèles IA sans prérequis ;
-
l’option Bring your own key (BYOK), qui permet de provisionner les services IA sur le cloud Microsoft Azure et d’utiliser sa propre clé pour les utiliser depuis Microsoft Fabric.
2. Les AI services dans Microsoft Fabric
a. Text Analytics
Le service Text Analytics fait partie des services Azure AI et offre une variété de fonctionnalités de traitement du langage naturel. Il permet de détecter la langue d’un texte, d’analyser les sentiments en attribuant un score entre 0 et 1, d’extraire les phrases clés, de reconnaître et catégoriser les informations personnelles identifiables (PII) pour les occulter si nécessaire, d’identifier les entités nommées et de lier les entités pour clarifier leur identité dans le texte.
Ce service est utilisable via REST API ou librairie SynapseML.
b. Azure AI translator
Le service Azure AI Translator est une solution de traduction automatique qui fait partie des services IA d’Azure, offrant des traductions pour de nombreuses langues et formats de documents. Il est conçu pour détecter la langue et permettre une traduction dans la langue de votre choix.
c. Azure Open AI service
Azure OpenAI Service est un service cloud entièrement géré par Microsoft Azure qui permet aux développeurs d’accéder à la plateforme OpenAI pour créer et déployer...
Microsoft Fabric et l’IA générative
Microsoft, en partenariat avec OpenAI, travaille étroitement sur l’IA générative, une branche de l’intelligence artificielle qui automatise la création de contenu. Cette collaboration stratégique vise à intégrer les technologies d’IA avancées d’OpenAI, telles que les modèles de langage de grande taille (LLM), dans les plateformes et services de Microsoft.
Ce chapitre n’a pas vocation à expliquer en détail l’IA générative, mais plutôt une introduction et son intégration à la plateforme Microsoft Fabric.
1. Comprendre les modèles LLM
Un modèle LLM, ou Large Language Model, est un outil d’intelligence artificielle capable de résumer, lire ou générer du texte sous forme de phrases similaires à celles utilisées par les humains. Les LLM peuvent être intégrés dans divers produits chez Microsoft pour enrichir l’expérience utilisateur ou participer à l’enrichissement de sets de données.
Les modèles LLM sont utilisés dans diverses applications pratiques. Par exemple, ils peuvent être intégrés dans des outils pour aider à la génération de contenu, la catégorisation personnalisée des documents, courriels et présentations en utilisant des résumés générés par les modèles.
Un autre exemple concret est l’utilisation des modèles LLM pour l’organisation et la recherche de documents. Les utilisateurs peuvent définir des sujets ou catégories personnalisés et le système utilise un LLM pour générer des résumés concis de multiples documents.
Voici quelques modèles LLM d’OpenAI :
-
GPT-3.5 Turbo : connu pour ses complétions de chat et l’appel de fonction ;
-
GPT-4 : la dernière version de la série GPT, réputée pour sa génération de texte de haute qualité ;
-
GPT-4o : version la plus récente, avec des capacités de complétions de chat.
Ces modèles sont utilisés pour une variété d’applications, allant de la génération...
Créer vos expériences de Machine Learning
Après avoir parcouru les différents services d’intelligence artificielle embarqués dans Fabric, les interactions avec les modèles LLM et SLM, qu’ils soient intégrés à la plateforme ou externes, nous allons maintenant nous intéresser à des approches de Machine Learning plus « conventionnelles », à savoir l’entraînement et la mise à disposition des modèles.
1. Préparation des données
Les Notebooks Microsoft Fabric facilitent l’accès aux données d’un Lakehouse grâce à Pandas, une bibliothèque Python largement utilisée pour l’analyse des données. Il vous sera alors possible de manipuler en PySpark vos dataframes et ainsi formater, nettoyer et adapter vos données en vue d’une exposition dans un modèle sémantique. L’interaction native en PySpark est une des façons les plus avancées de transformer vos données en amont d’un entraînement en vue de créer un modèle de Machine Learning.
Vous aurez nativement le choix entre une manipulation d’un dataframe Spark standard ou d’un dataframe Pandas.
Microsoft Fabric propose, en plus de l’approche code, une approche de manipulation graphique des différents dataframes. Cette approche est nommée Traqueur de données et est disponible dans l’interface d’utilisation des Notebooks.
Pour illustrer cette approche, nous allons dans un premier temps nous loguer sur notre environnement Microsoft Fabric via l’URL https://app.powerbi.com/home?experience=fabric et choisir l’expérience Synapse Data Science puis accéder à l’espace de travail Data Science préalablement créée.
En prérequis, vous devez avoir déroulé la partie préparation à l’environnement d’analyse du chapitre les AI services dans Microsoft Fabric.
Vous pouvez accéder directement au répertoire préalablement créé HotelReviews et créer un nouveau Notebook via le menu Nouveau puis Notebook.
Vous pouvez changer le nom du Notebook en cliquant sur son nom en haut à gauche. Nous choisirons PrepDataswpandas. Vous devez...
Interaction entre les modèles sémantiques et l’expérience de Data Science
1. Comprendre l’interaction entre les modèles sémantique et le persona de Data Science
Les modèles sémantiques sont des ensembles contenant des concepts de tables de dimensions, de faits, des mesures, des indicateurs calculés, etc. Ceux-ci sont à la fois générés par les équipes de développements des modèles, mais aussi enrichis par les équipes métiers, des utilisateurs avancés ou des analystes de données, qui viennent croiser les données avec des sources externes et apporter de la valeur au modèle sémantique.
Ces données restent dans le modèle sémantique sous la forme d’indicateurs calculés en langage DAX, il est donc nécessaire d’avoir une solution pour pouvoir manipuler ces données, par exemple les extraire, et les mettre à disposition d’autres utilisateurs de l’entreprise ou tout simplement d’autres développeurs pour les manipuler.
Cela permet de réconcilier la BI d’entreprise avec des modèles très top down (venant du management vers les équipes) avec des approches bottom up (remontée de l’information des équipes vers le management) qui permettent de valoriser les apports métiers en termes de création d’indicateurs à valeurs. Le métier met donc à disposition un indicateur dans un modèle sémantique qui sera récupéré par les data scientists pour être manipulés dans des Notebooks.
2. Introduction à la librairie de Semantic Link Labs
Cette bibliothèque python est conçue pour être utilisée dans les Notebooks de Microsoft Fabric. Elle a été créée à l’origine pour disposer uniquement de fonctions permettant de migrer des modèles sémantiques vers le mode Direct Lake. Cependant, il est rapidement devenu évident qu’une telle bibliothèque pourrait également prendre en charge de nombreuses autres tâches utiles liées aux modèles sémantiques, aux rapports et à tout ce qui est lié à Fabric. Par conséquent, cette...