Accueil›Outils›Apache Iceberg

Apache Iceberg

Table Format

Le format de table ouvert qui donne des capacités ACID à votre data lake

Tarif

Gratuit (open source)

Open sourceFree tierIntermédiaire

Présentation

Apache Iceberg est un format de table ouvert pour les données à grande échelle stockées dans S3/ADLS/GCS. Il apporte les transactions ACID, le schema evolution, le time travel et les partitions cachées à n'importe quel data lake. Supporté nativement par Spark, Flink, Trino, Dremio, Snowflake et BigQuery. Concurrent principal de Delta Lake (Databricks) et Hudi.

Fonctionnalités clés

✓Transactions ACID (INSERT, UPDATE, DELETE, MERGE)

✓Schema evolution sans migration

✓Time travel (lecture des données à un instant passé)

✓Hidden partitioning (partitions gérées automatiquement)

✓Row-level deletes (Merge-on-Read ou Copy-on-Write)

✓Compatibilité Parquet, ORC, Avro

✓Catalog REST, Hive, Glue, Nessie

✓Supporté par Spark, Flink, Trino, Snowflake, BigQuery

Cas d'usage

Gestion de tables ACID sur data lake

Apache Iceberg ajoute des garanties transactionnelles (ACID) à des fichiers stockés sur S3 ou HDFS, permettant des opérations UPDATE et DELETE que les formats classiques comme les partitions Hive ne supportent pas.

Time travel et audit de données

Grâce à la gestion des snapshots, Iceberg permet de requêter l'état d'une table à un instant précis dans le passé, facilitant l'audit réglementaire et la reproductibilité des analyses.

Migration et évolution de schéma sans rupture

Iceberg gère l'évolution de schéma de manière rétrocompatible : ajout de colonnes, renommage ou suppression sans avoir à réécrire l'intégralité des données sous-jacentes.

Interopérabilité multi-moteurs sur lakehouse

Les équipes peuvent utiliser simultanément Spark pour l'ingestion, Trino pour le requêtage interactif et Flink pour le streaming, toutes sur les mêmes tables Iceberg sans conflit.

✓ Points forts

+Format ouvert — pas de vendor lock-in (contrairement à Delta Lake)

+Time travel natif pour l'audit et le rollback

+Schema evolution sans downtime

+Adoption massive en 2024-2025 (standard de facto)

+Supporté par tous les moteurs majeurs

✗ Limites

−Pas un moteur de requête en soi — nécessite Spark/Trino/Flink

−Complexité de gestion des small files et compaction

−Courbe d'apprentissage des concepts (snapshots, manifests, metadata)

−Moins intégré qu'une solution cloud native (BigQuery, Snowflake)

✓ Fait pour vous si…

Architectures Lakehouse ouvertes sur S3/ADLS/GCS. Équipes voulant éviter le vendor lock-in de Delta Lake ou une solution cloud.

✗ Pas fait pour vous si…

Équipes cherchant une solution complète clé en main (préférer Delta Lake sur Databricks ou un warehouse managé).

Formations recommandées

Apache Iceberg Documentation

Documentation

Apache Software Foundation

Gratuit

Apache Iceberg: The Definitive Guide

MOOC

O'Reilly

~40€

Introduction to Apache Iceberg

Formation officielle

Dremio University

Gratuit

open-sourcetable-formatlakehouseaciddata-lake