Apache Iceberg est un format de table ouvert pour les données à grande échelle stockées dans S3/ADLS/GCS. Il apporte les transactions ACID, le schema evolution, le time travel et les partitions cachées à n'importe quel data lake. Supporté nativement par Spark, Flink, Trino, Dremio, Snowflake et BigQuery. Concurrent principal de Delta Lake (Databricks) et Hudi.
Gestion de tables ACID sur data lake
Apache Iceberg ajoute des garanties transactionnelles (ACID) à des fichiers stockés sur S3 ou HDFS, permettant des opérations UPDATE et DELETE que les formats classiques comme les partitions Hive ne supportent pas.
Time travel et audit de données
Grâce à la gestion des snapshots, Iceberg permet de requêter l'état d'une table à un instant précis dans le passé, facilitant l'audit réglementaire et la reproductibilité des analyses.
Migration et évolution de schéma sans rupture
Iceberg gère l'évolution de schéma de manière rétrocompatible : ajout de colonnes, renommage ou suppression sans avoir à réécrire l'intégralité des données sous-jacentes.
Interopérabilité multi-moteurs sur lakehouse
Les équipes peuvent utiliser simultanément Spark pour l'ingestion, Trino pour le requêtage interactif et Flink pour le streaming, toutes sur les mêmes tables Iceberg sans conflit.
✓ Points forts
✗ Limites
✓ Fait pour vous si…
Architectures Lakehouse ouvertes sur S3/ADLS/GCS. Équipes voulant éviter le vendor lock-in de Delta Lake ou une solution cloud.
✗ Pas fait pour vous si…
Équipes cherchant une solution complète clé en main (préférer Delta Lake sur Databricks ou un warehouse managé).
Apache Iceberg Documentation
DocumentationApache Software Foundation
Apache Iceberg: The Definitive Guide
MOOCO'Reilly
Introduction to Apache Iceberg
Formation officielleDremio University