🏗️Exemple concret
E-commerce avec 50M clients : sans CDC, le chargement nightly dans Snowflake prend 4 heures. Avec CDC (Debezium sur PostgreSQL) : chaque INSERT/UPDATE/DELETE est capturé et envoyé dans Kafka en < 1 seconde. Le Data Warehouse est mis à jour en quasi-temps réel. Latence de fraîcheur : de 4 heures à 30 secondes.
∑ Concept clé
CDC modes : Log-based (lit le WAL PostgreSQL/binlog MySQL — le plus performant), Query-based (polling sur timestamp_updated — simple mais polluant), Trigger-based (déclencheurs SQL — lourd en production).
🎯Quand l'utiliser ?
✓Synchronisation temps réel entre bases OLTP et DW/Data Lake
✓Alimentation de pipelines Kafka/streaming depuis des bases relationnelles
✓Replication de bases de données avec latence minimale
✅ Avantages
+Fraîcheur des données proche du temps réel
+Charge minimale sur la base source (log-based = lecture du journal)
+Capture les suppressions (impossible avec les approches classiques timestamp)
⚠️ Limites
−Configuration complexe (droits WAL requis)
−Gestion des changements de schéma (schema evolution)
−Besoin d'une infrastructure de messaging (Kafka recommandé)
🛠️ Outils principaux
Debezium (open source)
Airbyte CDC
AWS DMS (Database Migration Service)
Fivetran Log-based CDC
Oracle GoldenGate
Data EngineeringStreamingETLTemps réelBases de données