🏗️Exemple concret
Une fintech gère 120 tâches data quotidiennes dans Dagster : ingestion depuis 15 APIs (CRM, comptabilité, paiements) → transformations dbt → calcul des features ML → entraînement des modèles → calcul des métriques BI → export vers les outils reporting. Chaque matin à 5h, l'orchestrateur démarre les ingestions en parallèle, puis enchaîne selon les dépendances. Si une ingestion échoue, les tâches dépendantes sont automatiquement bloquées avec une alerte Slack.
🎯Quand l'utiliser ?
✓Pipelines avec plus de 5-10 étapes interdépendantes
✓Plusieurs équipes qui partagent des tables intermédiaires
✓SLAs stricts sur la fraîcheur des données
✓Remplacement de cron jobs non supervisés
✅ Avantages
+Visibilité complète sur l'état de tous les pipelines
+Gestion automatique des échecs et retries
+Dependency tracking : savoir exactement ce qui dépend de quoi
⚠️ Limites
−Complexité d'installation et de maintenance (surtout Airflow)
−Courbe d'apprentissage pour les équipes
−Risque de over-engineering pour les pipelines simples
🛠️ Outils principaux
Apache Airflow
Dagster
Prefect
dbt Cloud (scheduling intégré)
AWS Step Functions
OrchestrationPipelineDAGAirflowDagsterAutomatisation