🧊Data EngineeringAvancéLakehouse Architecture

Apache Iceberg

Format de table ouvert pour les Data Lakes qui apporte des transactions ACID, le time travel et l'évolution de schéma, compatible avec Spark, Trino, Flink et Hive.

💡Explication simple

Iceberg est l'alternative open-source et neutre à Delta Lake. Là où Delta Lake est très lié à Databricks/Spark, Iceberg fonctionne avec n'importe quel moteur (Spark, Trino, Flink, Presto). Il résout les mêmes problèmes : transactions ACID sur des fichiers Parquet, suivi des versions, lecture pendant l'écriture. C'est le choix des entreprises qui veulent éviter le lock-in sur un moteur.

🏗️Exemple concret

AWS propose S3 Tables basé sur Iceberg. Netflix, Apple et LinkedIn ont adopté Iceberg pour leurs Data Lakes de plusieurs pétaoctets. Un même dataset Iceberg peut être lu par Spark pour le ML, par Trino pour le SQL analytique, et par Flink pour le streaming — sans copie.

∑ Concept clé

Architecture Iceberg : Catalog (REST, Glue, Hive Metastore) Metadata layer (snapshot, manifest lists) Data files (Parquet/ORC/Avro). Chaque écriture crée un nouveau snapshot atomique.