Batch Processing

Définition

Paradigme de traitement où les données sont collectées pendant une période définie puis traitées en une seule fois à intervalles réguliers (toutes les heures, chaque nuit, chaque semaine). Simple à comprendre, facile à optimiser et très adapté aux gros volumes sans contrainte de latence. Le batch est le choix par défaut pour les transformations complexes, les agrégations historiques et les entraînements de modèles ML. Son principal inconvénient est le délai entre l'occurrence d'un événement et sa disponibilité dans le système analytique. Pour les cas nécessitant une fraîcheur inférieure à quelques minutes, le stream processing s'impose.

Exemples concrets

Spark batchAirflow DAGsAWS Glue jobs

← Retour au glossaire Termes en “B”

Fiche rapide

CatégorieProcessing

Exemples3 outils / technologies

Autres termes en Processing

Apache Flink →Apache Kafka →Apache Spark →Debezium →Exactly-once Semantics →