Prérequis et objectifs

1. Prérequis

Un compte AWS

Des connaissances SQL

2. Objectifs

Ce chapitre explore les services analytiques et de traitement des données sur AWS, permettant de collecter, stocker, transformer, interroger, visualiser et analyser des volumes massifs de données de manière scalable et optimisée. Il couvre les principaux outils d’analyse de données et de Big Data tels qu’Amazon Athena, Redshift Spectrum, QuickSight, OpenSearch, Glue, EMR et Lake Formation, en détaillant leur fonctionnement, leurs cas d’usage, leurs intégrations, ainsi que leurs rôles respectifs dans les requêtes SQL, l’analyse visuelle, l’orchestration ETL, le traitement distribué et la gestion des Data Lakes.

3. Positionnement dans la certification AWS

Ce chapitre est aligné avec plusieurs objectifs de la certification AWS Certified Solutions Architect - Associate (SAA-C03) :

Domaine 3 : Conception d’architectures hautement performantes (24 %)

Stockage et interrogation efficace des données avec Amazon Athena et Redshift.
Analyse en temps réel et visualisation avec QuickSight et OpenSearch.
Optimisation des traitements distribués avec EMR et Glue.

Domaine 4 : Conception d’architectures optimisées en termes de coûts (20 %)

Optimisation des coûts de requêtage sur des Data Lakes avec Athena...

Amazon Athena

1. Introduction

Amazon Athena est un service serverless permettant d’exécuter des requêtes SQL standard directement sur des données stockées dans Amazon S3. En tant que service serverless, Athena ne nécessite aucune gestion d’infrastructure, ce qui signifie que les utilisateurs peuvent se concentrer uniquement sur leurs requêtes, sans avoir à provisionner ou gérer des serveurs. Le service est conçu pour offrir une solution simple et flexible aux entreprises souhaitant analyser des données brutes ou semi-structurées de manière économique.

De plus, Athena est souvent utilisé conjointement avec Amazon QuickSight pour créer des tableaux de bord.

Les objectifs principaux d’Athena sont :

simplifier l’analyse des données stockées dans un Data Lake sur S3 ;
permettre des analyses rapides sur des datasets volumineux ;
réduire les coûts d’infrastructure, grâce à une tarification basée uniquement sur le volume de données scannées, sans coûts liés au provisioning de ressources.

Ce service est idéal pour les analyses de données et l’exécution de requêtes SQL classiques sur des fichiers de différents formats stockés dans S3, comme CSV, JSON, Avro, Parquet, ou ORC.

Athena est utile dans beaucoup de cas tels que :

Analyse des journaux d’application et sécurité : Athena peut analyser les journaux générés par AWS WAF (Web Application Firewall). Il faut tout d’abord que WAF envoie les logs dans Amazon S3. En utilisant Athena, les équipes de sécurité peuvent écrire des requêtes SQL pour examiner ces logs et identifier des tentatives d’attaques telles que des injections SQL, des attaques par force brute ou des tentatives de cross-site scripting (XSS). Par exemple, une requête Athena pourrait être configurée pour détecter toutes les requêtes provenant d’une même adresse IP ayant effectué un nombre anormalement élevé de tentatives de connexion sur une période donnée.
Suivi de l’inventaire des ressources via Systems Manager Inventory : grâce à SSM Inventory (System Manager Inventory), on peut collecter...

Amazon QuickSight

1. Introduction

Amazon QuickSight est un service de Business Intelligence qui permet de créer des tableaux de bord interactifs et d’obtenir un aperçu à partir des données. QuickSight est conçu pour être rapide, automatiquement scalable et facilement intégrable avec d’autres services AWS, tels que RDS, Aurora, Athena, Redshift, et S3. QuickSight permet de réaliser diverses tâches analytiques, comme la création de visualisations de données, la réalisation d’analyse.

Lorsqu’un ensemble de données est importé dans QuickSight, les calculs sont exécutés en mémoire grâce au moteur SPICE (Super-fast, Parallel, In-memory Calculation Engine), garantissant des performances élevées même sur de grands volumes de données. La version entreprise de QuickSight offre également des fonctionnalités avancées, telles que la possibilité de configurer la sécurité au niveau des colonnes (Column-Level Security - CLS), permettant de restreindre l’accès aux données selon les rôles des utilisateurs.

De plus, le service offre une tarification flexible par session, ce qui en fait une bonne solution pour les entreprises souhaitant fournir un accès BI ponctuel à un grand nombre d’utilisateurs sans générer de coûts fixes élevés.

Enfin, Amazon QuickSight intègre une fonctionnalité appelée ML Insights, qui utilise des algorithmes de machine learning pour détecter automatiquement des tendances, des anomalies et des prévisions dans les données, sans nécessiter de compétences avancées en data science. Cette fonctionnalité permet aux utilisateurs...

Amazon OpenSearch

1. Introduction

Amazon OpenSearch Service est le successeur d’Amazon Elasticsearch Service, offrant des capacités de recherche et d’analyse puissantes pour des données semi-structurées et non structurées. Contrairement à des bases de données comme DynamoDB, où les recherches se font uniquement via des clés primaires ou des index, OpenSearch permet d’effectuer des recherches sur n’importe quel champ, même sur des correspondances partielles (partial matches). Cette flexibilité en fait un excellent complément à d’autres bases de données, où il peut servir à enrichir l’expérience de recherche ou à analyser des volumes importants de logs.

OpenSearch peut être déployé de deux manières : en mode cluster managé ou en mode serverless, offrant ainsi une solution adaptée aux différents besoins de scalabilité et de gestion. OpenSearch est également livré avec OpenSearch Dashboards, une interface de visualisation intuitive permettant de créer des tableaux de bord interactifs pour explorer les données en temps réel.

Ce tableau de bord, intitulé Flight Dashboard, offre une visualisation des données liées aux vols, comprenant des informations sur le nombre total de vols, les retards et les annulations, ainsi que le prix moyen des billets. Il intègre différents graphiques, comme un diagramme circulaire pour la répartition des compagnies aériennes, un graphique de tendance pour le suivi du prix moyen des billets en fonction du temps, et plusieurs indicateurs clés comme le total des vols et le nombre de retards. Ce type de tableau de bord est conçu pour analyser les performances des vols, identifier des tendances et améliorer la gestion des opérations aériennes.

2. Fonctionnement d’Amazon OpenSearch

a. Architecture d’un cluster OpenSearch

Amazon OpenSearch repose sur une architecture distribuée composée de plusieurs nœuds, qui travaillent ensemble pour stocker, indexer et rechercher les données. Chaque cluster comprend :

Nœuds maîtres : ils gèrent la configuration du cluster et assurent le bon fonctionnement des opérations d’indexation et de recherche....

AWS Glue

1. Introduction

AWS Glue est un service d’intégration de données entièrement managé qui facilite les processus d’ETL (Extract, Transform, Load) dans l’environnement AWS. Dans un contexte où les entreprises collectent des données massives provenant de multiples sources telles que des bases de données, systèmes on-premises, fichiers, ou encore flux de données en temps réel, il devient essentiel de préparer et centraliser ces données pour les rendre exploitables. Le processus d’ETL permet précisément d’extraire les données de ces différentes sources, de les transformer pour harmoniser leur format et les nettoyer, puis de les charger dans un système adapté, comme un entrepôt de données ou un Data Lake. Ce processus est indispensable pour des activités d’analyse, de reporting ou encore de machine learning, et AWS Glue se distingue par sa capacité à automatiser et simplifier ces étapes.

L’un des principaux atouts d’AWS Glue réside dans son approche automatisée. Grâce à des crawlers intelligents, Glue peut explorer les datasets dans des sources telles qu’Amazon S3, Redshift, RDS ou DynamoDB, détecter automatiquement les schémas des données et créer un catalogue centralisé de métadonnées. Ce catalogue sert de référentiel pour les outils analytiques d’AWS comme Athena, Redshift Spectrum ou EMR, facilitant ainsi l’exploration et l’interrogation des données.

De plus, AWS Glue offre une interface intuitive via Glue Studio, permettant aux utilisateurs de créer des pipelines ETL complexes sans avoir besoin d’écrire de code, ou en utilisant des scripts Python ou Scala pour des transformations plus avancées. Il prend en charge une large gamme de formats de données comme JSON, CSV, Parquet, et ORC, le rendant adapté à de nombreux cas d’usage, qu’il s’agisse de la création de Data Lakes, de la migration de données entre systèmes, ou de la préparation des données pour le machine learning.

Grâce à sa gestion automatique des infrastructures, Glue élimine le besoin de configurer et d’administrer des serveurs...

Amazon EMR

1. Introduction

Amazon EMR (Elastic MapReduce) est un service entièrement managé permettant de créer des clusters Hadoop ou Spark pour analyser et traiter de grandes quantités de données de manière efficace et évolutive. Ce service automatise le provisionnement et la configuration des clusters, éliminant ainsi la complexité liée à leur gestion manuelle. Il est particulièrement adapté aux entreprises ayant des besoins importants en traitement Big Data.

EMR prend en charge plusieurs frameworks open source populaires tels que Apache Spark, Hadoop, Presto, Hive, Flink et HBase, offrant ainsi une solution flexible pour divers cas d’usage, comme :

le traitement de grandes quantités de données dans des Data Lakes ;
la préparation des données pour des modèles de machine learning ;
l’analyse de logs d’applications et d’infrastructure ;
l’exécution de requêtes SQL distribuées sur de grands datasets ;
l’indexation et la recherche de contenu pour des sites web.

Amazon EMR offre une grande flexibilité en permettant d’utiliser différents types d’instances EC2 (On-Demand, Réservées ou Spot), ce qui aide à optimiser les coûts selon les besoins de chaque tâche. Les clusters peuvent être dimensionnés à grande échelle, allant de quelques instances à des centaines, selon la charge de travail.

2. Fonctionnement d’Amazon EMR

a. Architecture du cluster

Un cluster Amazon EMR est constitué de plusieurs types de nœuds, chacun ayant un rôle spécifique dans le traitement et la gestion des données. Ces nœuds sont déployés sous forme d’instances EC2 et fonctionnent ensemble pour exécuter des tâches distribuées.

Le Master Node joue un rôle central en coordonnant les tâches et en gérant la santé du cluster. Il est responsable de la planification et de l’allocation des ressources aux autres nœuds. Sans le Master Node, le cluster ne peut pas fonctionner correctement, car il assure la supervision de l’ensemble des opérations.

Les Core Nodes exécutent les tâches attribuées par le Master Node tout en assurant le stockage persistant...

Amazon Redshift

1. Rappel sur Amazon Redshift

Nous avons déjà présenté Amazon Redshift et ses principales caractéristiques (cf. chapitre Gestion des bases de données - Amazon Redshift). Pour rappel, Amazon Redshift est un service d’entrepôt de données entièrement managé par AWS, conçu pour exécuter des requêtes analytiques complexes sur de grands volumes de données. Redshift est particulièrement adapté aux charges de travail OLAP (Online Analytical Processing), qui consistent à analyser des données agrégées pour des besoins de Business Intelligence, de reporting et d’analyse de tendances.

Contrairement aux bases de données transactionnelles (OLTP), qui sont optimisées pour les opérations fréquentes et les petites requêtes, Redshift est optimisé pour traiter des requêtes lourdes et complexes sur des datasets de plusieurs téraoctets ou pétaoctets. Il permet d’interroger efficacement des données centralisées provenant de plusieurs sources, notamment via des intégrations avec AWS Glue, RDS, S3. L’import de données depuis DynamoDB est également possible, bien qu’il nécessite une étape intermédiaire.

Grâce à son modèle de stockage en colonnes et son moteur...

Amazon Lake Formation

1. Introduction

AWS Lake Formation est un service entièrement managé qui facilite la création, la gestion et la sécurisation d’un Data Lake sur Amazon S3. Un Data Lake est un dépôt centralisé qui permet de stocker des données brutes ou semi-structurées provenant de diverses sources dans leur format d’origine. Contrairement à un entrepôt de données comme Redshift, qui est optimisé pour des requêtes analytiques sur des données structurées, un Data Lake permet de stocker des données de tous types (structurées, semi-structurées ou non structurées), offrant ainsi une grande flexibilité dans leur exploitation future.

La création d’un Data Lake traditionnel nécessite des étapes complexes, notamment la collecte de données depuis différentes sources, la gestion des métadonnées et l’application de règles de sécurité. AWS Lake Formation simplifie ce processus en automatisant :

l’ingestion des données depuis des services comme S3, RDS, et DynamoDB ;
la détection des schémas et la création de tables dans un catalogue centralisé (basé sur AWS Glue Catalog) ;
la gestion des accès grâce à des permissions granulaires et un contrôle d’accès au niveau des tables et des colonnes.

En centralisant toutes ces fonctionnalités, Lake Formation permet aux entreprises de créer rapidement un Data Lake opérationnel et sécurisé, tout en assurant la gouvernance des données.

2. Fonctionnalités principales d’Amazon Lake Formation

a. Création automatisée de Data Lakes

Lake Formation permet de créer un Data Lake entièrement opérationnel en quelques jours, alors qu’un processus manuel traditionnel prendrait plusieurs semaines. La création manuelle d’un Data Lake est un processus long et complexe pour plusieurs raisons :

Collecte et ingestion des données : les données proviennent généralement de multiples sources (bases de données relationnelles, NoSQL, fichiers bruts, logs, etc.), nécessitant la mise en place de pipelines d’ingestion spécifiques pour chaque type...

Cas d’utilisation d’analyse de données et business intelligence avec FrenchBakery

1. Analyse de logs S3 avec Athena

L’objectif de ce TP est d’utiliser Amazon Athena pour interroger les logs AWS CloudTrail stockés dans un bucket S3. Cette approche permet d’analyser en profondeur les activités des utilisateurs et services AWS, facilitant ainsi la détection d’éventuelles anomalies et l’identification d’actions suspectes. Elle est également utile pour le troubleshooting, en permettant de retracer précisément les événements et interactions au sein de l’infrastructure AWS.

Dans ce contexte, le gérant de FrenchBakery souhaite mettre en place un contrôle centralisé sur l’ensemble de ses comptes AWS afin de superviser toutes les actions effectuées sur son infrastructure. Grâce à CloudTrail, les logs de toutes les opérations réalisées au sein de ses environnements AWS sont enregistrés et centralisés dans Amazon S3, et avec AWS Glue, ces données deviennent interrogeables via Athena. Cette solution lui permet ainsi d’avoir une traçabilité complète des accès et des modifications effectuées, lui offrant une visibilité totale sur la gestion de ses ressources.

Tout d’abord, créez un Trail dans AWS CloudTrail qui stockera les logs dans un bucket S3.

Donnez un nom à votre trail, puis sélectionnez un bucket existant ou créez-en un.

La meilleure pratique consiste à chiffrer les logs au repos à l’aide de KMS. Dans cet exemple, le chiffrement a été désactivé, ce qui ne correspond pas aux recommandations de sécurité.

Sur la page Choose log events, conservez les paramètres par défaut, puis procédez à la création de votre Trail.

Réalisez ensuite quelques actions, telles que la création et la suppression d’une instance EC2, afin de générer des logs qui seront stockés dans le bucket S3 configuré.

Patientez quelques minutes, puis accédez à votre bucket S3. Vous y trouverez des fichiers CloudTrail stockés dans des dossiers structurés par année, mois et jour, ce qui facilite...

Validation des acquis : questions/réponses

Si l’état de vos connaissances sur ce chapitre vous semble suffisant, répondez aux questions ci-après.

1. Questions

1 Votre entreprise collecte des logs CloudTrail pour auditer les actions des utilisateurs et des services sur AWS. Comment analyser efficacement ces logs sans déployer une infrastructure complexe ?

2 Une application génère quotidiennement des téraoctets de logs stockés sur Amazon S3. Comment pouvez-vous interroger ces données rapidement sans déplacer les fichiers vers une base de données ?

3 Vous devez identifier les requêtes API les plus fréquentes et détecter des anomalies de sécurité à partir des logs de VPC Flow Logs. Quelle solution AWS permettrait de faire cela sans nécessiter un ETL ?

4 Un incident de sécurité a été détecté dans vos logs AWS WAF. Comment pouvez-vous rapidement interroger ces logs pour identifier les requêtes malveillantes ?

5 Comment réduire les coûts liés à l’analyse des logs CloudTrail tout en conservant une capacité de requêtage efficace ?

6 Votre entreprise souhaite suivre l’évolution des ventes et des performances marketing en temps réel sans investir dans une infrastructure BI complexe. Quelle solution AWS permettrait d’afficher ces indicateurs sous forme de tableaux de bord interactifs ?

7 Votre équipe financière doit générer des rapports de performance chaque semaine à partir de données stockées sur Amazon S3. Comment pouvez-vous automatiser cette tâche sans développement supplémentaire ?

8 Vous souhaitez offrir à vos utilisateurs un moteur de recherche performant capable d’indexer rapidement des millions de documents stockés sur AWS. Quelle solution pourrait répondre à ce besoin ?

9 Votre entreprise stocke des données dans plusieurs formats sur Amazon S3 et souhaite les rendre accessibles sans devoir les déplacer vers une base de données. Quel service AWS peut permettre cette centralisation des métadonnées ?

10 Votre équipe Data souhaite éviter de définir manuellement les schémas des fichiers stockés...