Data Universe
Newsletter
Accueil/Encyclopédie/AWS Glue
🔧CloudIntermédiaireAWS - Data Engineering

AWS Glue

Service ETL serverless d'AWS qui découvre, catalogue et transforme les données sans gérer de serveurs. Intégré nativement avec S3, Redshift, RDS et Athena.

💡Explication simple

AWS Glue, c'est un ETL en location. Au lieu d'acheter et maintenir un serveur pour transformer tes données, tu décris ce que tu veux faire (Python ou Spark), AWS Glue lance les machines le temps du traitement et les éteint ensuite. Tu payes à la seconde d'exécution. Le Data Catalog Glue est un catalogue centralisé qui liste toutes tes tables S3 comme si elles étaient dans une vraie base de données.

🏗️Exemple concret

Pipeline de données e-commerce : les logs JSON bruts arrivent dans S3 chaque heure. AWS Glue Crawler découvre automatiquement le schéma. Un job Glue PySpark les convertit en Parquet partitionné et les charge dans Redshift. Coût pour 1h de traitement de 50GB : ~0.44$ (2 DPUs × 1h × 0.44$/DPU-h).

∑ Concept clé

Coût = DPU-heures × $0.44/DPU-h. 1 DPU = 4 vCPU + 16 GB RAM. Job minimum : 2 DPUs.

🎯Quand l'utiliser ?

Pipelines ETL sur données S3 sans serveur
Catalogage automatique de données (Data Catalog)
Transformations Spark sans cluster EMR à maintenir

✅ Avantages

+Serverless (zéro gestion infrastructure)
+Data Catalog intégré avec Athena, Redshift Spectrum
+Support PySpark natif

⚠️ Limites

Coûteux pour des jobs fréquents et courts (minimum 1 minute facturé)
Démarrage lent (cold start de 2-5 minutes)
Moins flexible que Databricks pour les pipelines complexes

🛠️ Outils principaux

AWS Glue Studio (UI visuelle)
AWS Glue Data Catalog
AWS Glue DataBrew (no-code)
AWSETLServerlessData Engineering

Concepts liés

🌊

Amazon Kinesis Data Streams

AWS - Streaming

🏪

Amazon Redshift

AWS - Data Warehouse

🪣

Amazon S3 (Simple Storage Service)

AWS - Stockage

🔬

Amazon SageMaker

AWS - Machine Learning

← Retour à l'encyclopédie