Data Universe
Newsletter
Accueil/Encyclopédie/Apache Iceberg
🧊Data EngineeringAvancéLakehouse Architecture

Apache Iceberg

Format de table ouvert pour les Data Lakes qui apporte des transactions ACID, le time travel et l'évolution de schéma, compatible avec Spark, Trino, Flink et Hive.

💡Explication simple

Iceberg est l'alternative open-source et neutre à Delta Lake. Là où Delta Lake est très lié à Databricks/Spark, Iceberg fonctionne avec n'importe quel moteur (Spark, Trino, Flink, Presto). Il résout les mêmes problèmes : transactions ACID sur des fichiers Parquet, suivi des versions, lecture pendant l'écriture. C'est le choix des entreprises qui veulent éviter le lock-in sur un moteur.

🏗️Exemple concret

AWS propose S3 Tables basé sur Iceberg. Netflix, Apple et LinkedIn ont adopté Iceberg pour leurs Data Lakes de plusieurs pétaoctets. Un même dataset Iceberg peut être lu par Spark pour le ML, par Trino pour le SQL analytique, et par Flink pour le streaming — sans copie.

∑ Concept clé

Architecture Iceberg : Catalog (REST, Glue, Hive Metastore) → Metadata layer (snapshot, manifest lists) → Data files (Parquet/ORC/Avro). Chaque écriture crée un nouveau snapshot atomique.

🎯Quand l'utiliser ?

Data Lakes multi-moteurs (Spark + Trino + Flink)
Éviter le vendor lock-in sur Databricks
Requêtes time-travel et audit sur grands volumes

✅ Avantages

+Indépendant du moteur de calcul (standard ouvert)
+Performances d'écriture supérieures à Delta sur certains workloads
+Support natif AWS (S3 Tables), GCP (BigLake) et Azure

⚠️ Limites

Ecosystem moins mature que Delta Lake pour les écritures de streaming
Compaction et maintenance à gérer manuellement
Moins intégré nativement dans Databricks que Delta

🛠️ Outils principaux

Apache Iceberg (open source)
Spark, Trino, Flink (moteurs)
AWS Glue Data Catalog
Dremio
Snowflake Iceberg Tables
Data EngineeringLakehouseOpen Table FormatACIDBig Data

Concepts liés

âš¡

Apache Flink — Stream processing temps réel

Streaming

🏗️

Architecture Lakehouse

Architecture

🥇

Architecture Medallion (Bronze / Silver / Gold)

Architecture data

📡

Change Data Capture (CDC)

Ingestion de données

← Retour à l'encyclopédie