Data Universe
Newsletter
Accueil/Encyclopédie/Apache Flink — Stream processing temps réel
⚡Data EngineeringAvancéStreaming

Apache Flink — Stream processing temps réel

Moteur de traitement de flux distribué qui traite chaque événement individuellement avec une latence de l'ordre de la milliseconde, contrairement au micro-batching de Spark.

💡Explication simple

Spark Streaming traite les données par petits paquets toutes les quelques secondes (micro-batching). Flink traite chaque événement au fur et à mesure qu'il arrive, en continu. C'est la différence entre un robinet (flux continu) et un seau qu'on vide régulièrement. Pour la détection de fraude où chaque milliseconde compte, Flink est le choix naturel. Il maintient aussi un état distribué : il peut se souvenir des 100 dernières transactions d'un utilisateur pour détecter des anomalies.

🏗️Exemple concret

Une plateforme de paiement traite 50 000 transactions/seconde. Flink détecte en temps réel : si 3 transactions de montants identiques arrivent depuis des pays différents en moins de 2 secondes, bloquer la suivante. Latence de décision : 8ms. Avec Spark Structured Streaming en micro-batch de 1 seconde, il manquerait les patterns inter-batch.

🎯Quand l'utiliser ?

Détection de fraude et anomalies temps réel
Scoring ML en ligne (inférence sur chaque événement)
Pipelines CDC (Change Data Capture) vers le data warehouse
Applications nécessitant une latence < 100ms

✅ Avantages

+Latence vraiment sub-seconde (pas de micro-batching)
+Garantie exactly-once nativement
+Gestion d'état distribué native (pas besoin de Redis externe)

⚠️ Limites

Courbe d'apprentissage plus raide que Spark
Moins de ressources communautaires et d'intégrations que Spark
Debugging complexe sur les applications stateful

🛠️ Outils principaux

Apache Flink
Confluent Cloud for Flink (Managed)
AWS Managed Service for Apache Flink
Flink SQL
Ververica Platform
StreamingTemps réelFlinkFraud detectionLatence

Concepts liés

🧊

Apache Iceberg

Lakehouse Architecture

🏗️

Architecture Lakehouse

Architecture

🥇

Architecture Medallion (Bronze / Silver / Gold)

Architecture data

📡

Change Data Capture (CDC)

Ingestion de données

← Retour à l'encyclopédie