🏗️Exemple concret
Pipeline de données e-commerce : les logs JSON bruts arrivent dans S3 chaque heure. AWS Glue Crawler découvre automatiquement le schéma. Un job Glue PySpark les convertit en Parquet partitionné et les charge dans Redshift. Coût pour 1h de traitement de 50GB : ~0.44$ (2 DPUs × 1h × 0.44$/DPU-h).
∑ Concept clé
Coût = DPU-heures × $0.44/DPU-h. 1 DPU = 4 vCPU + 16 GB RAM. Job minimum : 2 DPUs.
🎯Quand l'utiliser ?
✓Pipelines ETL sur données S3 sans serveur
✓Catalogage automatique de données (Data Catalog)
✓Transformations Spark sans cluster EMR Ã maintenir
✅ Avantages
+Serverless (zéro gestion infrastructure)
+Data Catalog intégré avec Athena, Redshift Spectrum
+Support PySpark natif
⚠️ Limites
−Coûteux pour des jobs fréquents et courts (minimum 1 minute facturé)
−Démarrage lent (cold start de 2-5 minutes)
−Moins flexible que Databricks pour les pipelines complexes
🛠️ Outils principaux
AWS Glue Studio (UI visuelle)
AWS Glue Data Catalog
AWS Glue DataBrew (no-code)
AWSETLServerlessData Engineering