☁️CloudIntermédiaireAWS - Data Engineering

AWS Glue

Service ETL serverless d'AWS qui découvre, catalogue et transforme les données sans gérer de serveurs. Intégré nativement avec S3, Redshift, RDS et Athena.

💡Explication simple

AWS Glue, c'est un ETL en location. Au lieu d'acheter et maintenir un serveur pour transformer tes données, tu décris ce que tu veux faire (Python ou Spark), AWS Glue lance les machines le temps du traitement et les éteint ensuite. Tu payes à la seconde d'exécution. Le Data Catalog Glue est un catalogue centralisé qui liste toutes tes tables S3 comme si elles étaient dans une vraie base de données.

🏗️Exemple concret

Pipeline de données e-commerce : les logs JSON bruts arrivent dans S3 chaque heure. AWS Glue Crawler découvre automatiquement le schéma. Un job Glue PySpark les convertit en Parquet partitionné et les charge dans Redshift. Coût pour 1h de traitement de 50GB : ~0.44$ (2 DPUs 1h 0.44$/DPU-h).

∑ Concept clé

Coût = DPU-heures $0.44/DPU-h. 1 DPU = 4 vCPU + 16 GB RAM. Job minimum : 2 DPUs.