Data Universe
Newsletter
GlossaireAApache Airflow
Engineering

Apache Airflow

Définition

Orchestrateur de workflows open source où les pipelines sont définis comme des DAGs (Directed Acyclic Graphs) écrits en Python. Chaque nœud du DAG est un opérateur (BashOperator, PythonOperator, SparkSubmitOperator) et les arêtes définissent les dépendances d'exécution. Airflow gère la planification, l'exécution, le retry automatique et fournit une interface web pour monitorer l'état de chaque tâche. Son extensibilité via des providers (AWS, GCP, dbt, Spark) en fait le standard de facto du data engineering. Ses limites : les DAGs dynamiques sont complexes, et la scalabilité nécessite un executor Celery ou Kubernetes pour les charges élevées.

Exemples concrets

AstronomerMWAA (AWS)Cloud Composer (GCP)
← Retour au glossaireTermes en “A

Fiche rapide

CatégorieEngineering
Exemples3 outils / technologies