🏗️Exemple concret
Pipeline d'analyse des logs d'une application mobile : le même code Beam lit depuis Pub/Sub (streaming, pour les alertes temps réel) et depuis GCS (batch, pour les rapports quotidiens). Dataflow autoscale de 2 à 50 workers selon la charge, puis redescend automatiquement.
∑ Concept clé
Architecture Apache Beam : PCollection (données immuables) → PTransforms (transformations) → Runner (Dataflow, Flink, Spark). Fenêtrage temporel pour le streaming.
🎯Quand l'utiliser ?
✓Traitement batch ET streaming avec un seul codebase
✓Pipelines ETL complexes sur GCP
✓Traitement de données à très grande échelle avec autoscaling
✅ Avantages
+Autoscaling automatique (zéro gestion cluster)
+Unification batch/streaming (même code)
+Intégration native BigQuery, Pub/Sub, GCS
⚠️ Limites
−Courbe d'apprentissage Beam importante
−Plus cher que Spark géré pour du batch pur
−Latence de démarrage (2-3 min)
🛠️ Outils principaux
Google Cloud Dataflow
Apache Beam SDK (Python, Java)
Apache Flink (alternative open source)
GCPStreamingBatchApache BeamData Engineering