Apache Iceberg

Définition

Format de table open source créé par Netflix et maintenant standard ANSI pour les grands datasets analytiques sur object storage. Iceberg résout les problèmes fondamentaux des tables Hive : transactions ACID (plusieurs opérations atomiques), schema evolution sans réécriture des données, time travel (interroger les données à un état passé via snapshots), hidden partitioning (le moteur gère automatiquement le pruning sans que les utilisateurs aient à connaître le schéma de partition), et row-level deletes/updates. Iceberg est plus ouvert que Delta Lake (pas lié à Databricks) et est supporté nativement par Spark, Flink, Trino, Presto, Snowflake et BigQuery.

Exemples concrets

Iceberg sur S3Iceberg sur DatabricksAWS Glue + Iceberg

← Retour au glossaire Termes en “A”

Fiche rapide

CatégorieInfrastructure

Exemples3 outils / technologies

Autres termes en Infrastructure

BigQuery →Data Lake →Data Lakehouse →Data Mart →Data Warehouse →