Data Universe
Newsletter
GlossaireLLate Data
Processing

Late Data

Définition

Événements qui arrivent dans le pipeline de streaming après l'heure à laquelle ils auraient dû être traités, typiquement à cause de latences réseau, de buffers mobiles hors-ligne ou de systèmes sources lents. Exemple : un événement avec un timestamp 10h00 qui arrive à 10h05 dans le topic Kafka alors que la fenêtre 10h00-10h05 a déjà été calculée et émise. Les systèmes de streaming distinguent l'event time (timestamp de l'événement) du processing time (moment où il est traité). Les watermarks définissent le délai maximum toléré avant de fermer une fenêtre : un watermark de 2 minutes signifie que le système attend des données jusqu'à 2 minutes de retard avant d'émettre le résultat. Les données plus tardives sont soit ignorées, soit déclenchent une mise à jour du résultat (retractions dans Flink).

Exemples concrets

Flink watermark allowedLatenessSpark Structured Streaming withWatermarkFenêtre tumbling avec late dataEvent time vs processing time
← Retour au glossaireTermes en “L

Fiche rapide

CatégorieProcessing
Exemples4 outils / technologies