Apache Airflow est l'orchestrateur de workflows data le plus utilisé au monde. Créé par Airbnb en 2014, il permet de définir, planifier et surveiller des pipelines (DAGs) en Python. Très puissant mais complexe à opérer et à scaler.
Orchestration de pipelines ETL/ELT complexes
Airflow orchestre des DAGs avec des dizaines de tâches interdépendantes (extraction, transformation, chargement) en gérant les retry, les timeouts et les notifications automatiquement.
Automatisation des rapports périodiques
Les équipes data planifient des DAGs qui extraient les données, exécutent les transformations dbt et déclenchent l'envoi des rapports BI selon des planifications horaires ou quotidiennes.
Coordination de workflows ML
Airflow orchestre les étapes d'un pipeline ML : préparation des données, entraînement du modèle, évaluation des métriques et déploiement conditionnel selon les seuils de performance.
Intégration multi-cloud et multi-systèmes
Via ses centaines d'opérateurs officiels (AWS, GCP, Azure, Snowflake, Spark), Airflow connecte des systèmes hétérogènes dans un seul workflow observable.
✓ Points forts
✗ Limites
✓ Fait pour vous si…
Équipes data engineering expérimentées avec des pipelines complexes. Organisations nécessitant une personnalisation poussée.
✗ Pas fait pour vous si…
Équipes débutantes ou petites équipes sans DevOps dédié. Pipelines simples.
The Complete Hands-On Introduction to Apache Airflow
MOOCUdemy
Introduction to Airflow in Python
MOOCDataCamp
Airflow Documentation & Tutorials
DocumentationApache / Astronomer
Astronomer Academy
Formation officielleAstronomer