🏗️Exemple concret
AWS propose S3 Tables basé sur Iceberg. Netflix, Apple et LinkedIn ont adopté Iceberg pour leurs Data Lakes de plusieurs pétaoctets. Un même dataset Iceberg peut être lu par Spark pour le ML, par Trino pour le SQL analytique, et par Flink pour le streaming — sans copie.
∑ Concept clé
Architecture Iceberg : Catalog (REST, Glue, Hive Metastore) → Metadata layer (snapshot, manifest lists) → Data files (Parquet/ORC/Avro). Chaque écriture crée un nouveau snapshot atomique.
🎯Quand l'utiliser ?
✓Data Lakes multi-moteurs (Spark + Trino + Flink)
✓Éviter le vendor lock-in sur Databricks
✓Requêtes time-travel et audit sur grands volumes
✅ Avantages
+Indépendant du moteur de calcul (standard ouvert)
+Performances d'écriture supérieures à Delta sur certains workloads
+Support natif AWS (S3 Tables), GCP (BigLake) et Azure
⚠️ Limites
−Ecosystem moins mature que Delta Lake pour les écritures de streaming
−Compaction et maintenance à gérer manuellement
−Moins intégré nativement dans Databricks que Delta
🛠️ Outils principaux
Apache Iceberg (open source)
Spark, Trino, Flink (moteurs)
AWS Glue Data Catalog
Dremio
Snowflake Iceberg Tables
Data EngineeringLakehouseOpen Table FormatACIDBig Data