Google Cloud Dataflow

Service de traitement de données en flux et par batch entièrement géré sur GCP, basé sur Apache Beam. Unifie le traitement batch et streaming avec le même code.

💡Explication simple

Dataflow résout un problème classique : le code pour traiter les données en lot (batch) et en temps réel (streaming) était complètement différent. Avec Apache Beam (la technologie derrière Dataflow), tu écris le code une seule fois et il fonctionne dans les deux modes. GCP gère automatiquement les serveurs, l'autoscaling et la haute disponibilité.

🏗️Exemple concret

Pipeline d'analyse des logs d'une application mobile : le même code Beam lit depuis Pub/Sub (streaming, pour les alertes temps réel) et depuis GCS (batch, pour les rapports quotidiens). Dataflow autoscale de 2 à 50 workers selon la charge, puis redescend automatiquement.

∑ Concept clé

Architecture Apache Beam : PCollection (données immuables) PTransforms (transformations) Runner (Dataflow, Flink, Spark). Fenêtrage temporel pour le streaming.