Apache Hudi (Hadoop Upserts Deletes and Incrementals) est un format de table open source créé par Uber, optimisé pour les pipelines CDC à haute fréquence. Il propose deux types de table : Copy-on-Write (lecture optimisée) et Merge-on-Read (écriture optimisée). Son indexation avancée (Bloom filter, bucket index) accélère massivement les lookups par clé primaire.
CDC depuis PostgreSQL vers S3
Hudi DeltaStreamer lit le binlog PostgreSQL via Debezium/Kafka et applique les INSERT/UPDATE/DELETE directement dans les tables Hudi sur S3.
Near real-time analytics avec MOR
Les événements Kafka sont écrits en Merge-on-Read pour minimiser la latence d'ingestion, puis compactés en mode batch pour les requêtes analytiques.
✓ Points forts
✗ Limites
⚠️ Pièges connus en production
✓ Fait pour vous si…
Pipelines de streaming avec des millions d'upserts par heure (CDC depuis bases de données), surtout sur AWS EMR.
✗ Pas fait pour vous si…
Cas d'usage analytiques purs sans besoin de mises à jour fréquentes (préférer Iceberg ou Delta Lake).