Apache Hudi

Définition

Format de table open source créé par Uber pour gérer des données mutables sur object storage (S3, GCS). Hudi supporte les opérations ACID (insert, update, delete) et propose deux types de table : Copy-on-Write (réécriture du fichier Parquet à chaque update, optimal pour les lectures) et Merge-on-Read (les deltas sont stockés séparément dans des log files Avro puis compactés asynchroniquement, optimal pour les écritures fréquentes). Son indexation avancée (Bloom filter, HBase index, bucket index) accélère les lookups par clé primaire. Hudi intègre nativement le CDC, les sagas de transactions, et le time travel. Il est particulièrement répandu chez les utilisateurs d'EMR et Spark sur AWS. Concurrent direct d'Apache Iceberg et Delta Lake.

Exemples concrets

Hudi sur AWS EMRHudi + Spark Structured StreamingCopy-on-Write vs Merge-on-ReadHudi DeltaStreamer

← Retour au glossaire Termes en “A”

Fiche rapide

CatégorieData Engineering

Exemples4 outils / technologies

Autres termes en Data Engineering

Backfill →Data Skew →DuckDB →Fact Table →Pandas →