Data Universe
Newsletter
Accueil/Encyclopédie/Google Cloud Dataflow
🌊CloudAvancéGCP - Traitement

Google Cloud Dataflow

Service de traitement de données en flux et par batch entièrement géré sur GCP, basé sur Apache Beam. Unifie le traitement batch et streaming avec le même code.

💡Explication simple

Dataflow résout un problème classique : le code pour traiter les données en lot (batch) et en temps réel (streaming) était complètement différent. Avec Apache Beam (la technologie derrière Dataflow), tu écris le code une seule fois et il fonctionne dans les deux modes. GCP gère automatiquement les serveurs, l'autoscaling et la haute disponibilité.

🏗️Exemple concret

Pipeline d'analyse des logs d'une application mobile : le même code Beam lit depuis Pub/Sub (streaming, pour les alertes temps réel) et depuis GCS (batch, pour les rapports quotidiens). Dataflow autoscale de 2 à 50 workers selon la charge, puis redescend automatiquement.

∑ Concept clé

Architecture Apache Beam : PCollection (données immuables) → PTransforms (transformations) → Runner (Dataflow, Flink, Spark). Fenêtrage temporel pour le streaming.

🎯Quand l'utiliser ?

Traitement batch ET streaming avec un seul codebase
Pipelines ETL complexes sur GCP
Traitement de données à très grande échelle avec autoscaling

✅ Avantages

+Autoscaling automatique (zéro gestion cluster)
+Unification batch/streaming (même code)
+Intégration native BigQuery, Pub/Sub, GCS

⚠️ Limites

Courbe d'apprentissage Beam importante
Plus cher que Spark géré pour du batch pur
Latence de démarrage (2-3 min)

🛠️ Outils principaux

Google Cloud Dataflow
Apache Beam SDK (Python, Java)
Apache Flink (alternative open source)
GCPStreamingBatchApache BeamData Engineering

Concepts liés

🌊

Amazon Kinesis Data Streams

AWS - Streaming

🏪

Amazon Redshift

AWS - Data Warehouse

🪣

Amazon S3 (Simple Storage Service)

AWS - Stockage

🔬

Amazon SageMaker

AWS - Machine Learning

← Retour à l'encyclopédie