Data Engineering

Backfill

Définition

Opération qui consiste à (re)traiter des données historiques après qu'un pipeline ait été créé ou modifié. Cas typiques : déploiement d'un nouveau pipeline qui doit traiter les 2 dernières années de données, correction d'un bug de transformation qui a produit des résultats erronés, changement de logique métier nécessitant le recalcul rétroactif. Un backfill bien conçu exploite l'idempotence du pipeline : réexécuter le même traitement pour la même période doit produire le même résultat sans créer de doublons. Airflow et Dagster ont des mécanismes natifs de backfill via la sélection de plages de dates. Le coût d'un backfill peut être élevé (cluster Spark sur 2 ans de données) et doit être planifié soigneusement, souvent en traitant les partitions par tranches pour éviter les OOM.

Exemples concrets

Airflow backfill --start-dateDagster backfill par partitiondbt run --vars '{backfill: true}'Spark backfill partitionné par mois

← Retour au glossaire Termes en “B”

Fiche rapide

CatégorieData Engineering

Exemples4 outils / technologies

Autres termes en Data Engineering

Apache Hudi →Data Skew →DuckDB →Fact Table →Pandas →