Data Universe
Newsletter
Accueil/Encyclopédie/Change Data Capture (CDC)
📡Data EngineeringIntermédiaireIngestion de données

Change Data Capture (CDC)

Technique qui capture en temps quasi-réel tous les changements (INSERT, UPDATE, DELETE) dans une base de données source et les propage vers les systèmes cibles.

💡Explication simple

Au lieu de copier toute une base de données chaque nuit (batch), le CDC écoute le journal de transactions de la base (transaction log / WAL) et capture chaque changement au moment où il se produit. C'est comme avoir un greffier qui note chaque modification de registre en temps réel, plutôt que de refaire l'inventaire complet chaque soir.

🏗️Exemple concret

E-commerce avec 50M clients : sans CDC, le chargement nightly dans Snowflake prend 4 heures. Avec CDC (Debezium sur PostgreSQL) : chaque INSERT/UPDATE/DELETE est capturé et envoyé dans Kafka en < 1 seconde. Le Data Warehouse est mis à jour en quasi-temps réel. Latence de fraîcheur : de 4 heures à 30 secondes.

∑ Concept clé

CDC modes : Log-based (lit le WAL PostgreSQL/binlog MySQL — le plus performant), Query-based (polling sur timestamp_updated — simple mais polluant), Trigger-based (déclencheurs SQL — lourd en production).

🎯Quand l'utiliser ?

Synchronisation temps réel entre bases OLTP et DW/Data Lake
Alimentation de pipelines Kafka/streaming depuis des bases relationnelles
Replication de bases de données avec latence minimale

✅ Avantages

+Fraîcheur des données proche du temps réel
+Charge minimale sur la base source (log-based = lecture du journal)
+Capture les suppressions (impossible avec les approches classiques timestamp)

⚠️ Limites

Configuration complexe (droits WAL requis)
Gestion des changements de schéma (schema evolution)
Besoin d'une infrastructure de messaging (Kafka recommandé)

🛠️ Outils principaux

Debezium (open source)
Airbyte CDC
AWS DMS (Database Migration Service)
Fivetran Log-based CDC
Oracle GoldenGate
Data EngineeringStreamingETLTemps réelBases de données

Concepts liés

âš¡

Apache Flink — Stream processing temps réel

Streaming

🧊

Apache Iceberg

Lakehouse Architecture

🏗️

Architecture Lakehouse

Architecture

🥇

Architecture Medallion (Bronze / Silver / Gold)

Architecture data

← Retour à l'encyclopédie