Accueil›Outils›Apache Hudi

Apache Hudi

Table Format

Format de table open source optimisé pour les ingestions CDC à haute fréquence sur S3

Tarif

Gratuit (open source Apache). Onehouse propose une version managée.

Open sourceFree tierAvancé

Présentation

Apache Hudi (Hadoop Upserts Deletes and Incrementals) est un format de table open source créé par Uber, optimisé pour les pipelines CDC à haute fréquence. Il propose deux types de table : Copy-on-Write (lecture optimisée) et Merge-on-Read (écriture optimisée). Son indexation avancée (Bloom filter, bucket index) accélère massivement les lookups par clé primaire.

Fonctionnalités clés

✓Copy-on-Write et Merge-on-Read tables

✓Indexation avancée (Bloom filter, HBase index, Bucket index)

✓Transactions ACID et snapshot isolation

✓Time Travel et incremental queries

✓DeltaStreamer pour l'ingestion CDC automatisée

✓Compaction asynchrone (MOR tables)

✓Schema evolution

✓Clustering automatique

Cas d'usage

CDC depuis PostgreSQL vers S3

Hudi DeltaStreamer lit le binlog PostgreSQL via Debezium/Kafka et applique les INSERT/UPDATE/DELETE directement dans les tables Hudi sur S3.

Near real-time analytics avec MOR

Les événements Kafka sont écrits en Merge-on-Read pour minimiser la latence d'ingestion, puis compactés en mode batch pour les requêtes analytiques.

✓ Points forts

+Excellent pour les ingestions CDC à très haute fréquence

+L'indexation par Bloom filter réduit drastiquement les files scannés lors des upserts

+Merge-on-Read minimise l'amplification d'écriture

+DeltaStreamer simplifie l'ingestion depuis Kafka et JDBC

✗ Limites

−Courbe d'apprentissage plus raide qu'Iceberg ou Delta Lake

−Moins d'intégrations out-of-the-box que Delta Lake

−La compaction MOR doit être planifiée et supervisée

⚠️ Pièges connus en production

1.La compaction MOR qui ne tourne pas régulièrement crée des log files qui dégradent les performances de lecture.

2.Le choix entre CoW et MoR est structurant : CoW pour les lectures fréquentes, MoR pour les écritures fréquentes.

3.Les Bloom filter indexes doivent être régénérés après des opérations de clustering.

✓ Fait pour vous si…

Pipelines de streaming avec des millions d'upserts par heure (CDC depuis bases de données), surtout sur AWS EMR.

✗ Pas fait pour vous si…

Cas d'usage analytiques purs sans besoin de mises à jour fréquentes (préférer Iceberg ou Delta Lake).

open-sourcecdcstreamingawsupsert