Delta Lake

Table Format

Le format de table open source qui apporte les transactions ACID aux data lakes sur object storage

Tarif

Gratuit (open source). Les fonctionnalités avancées (Liquid Clustering, Deletion Vectors) sont disponibles sur Databricks.

Open sourceFree tierIntermédiaire

Présentation

Delta Lake est le format de table open source créé par Databricks, devenu le standard de facto pour les lakehouses. Il ajoute les transactions ACID, le time travel, le schema enforcement et les opérations MERGE/UPDATE/DELETE aux fichiers Parquet stockés sur S3 ou ADLS. Il est au cœur de l'architecture Databricks et supporte Apache Spark, PySpark, SQL et les APIs Python.

Fonctionnalités clés

✓Transactions ACID sur S3/ADLS/GCS

✓Time Travel (90 versions par défaut)

✓Schema enforcement et schema evolution

✓MERGE INTO (upsert transactionnel)

✓Change Data Feed (CDC natif)

✓Z-Ordering pour l'optimisation des lectures

✓OPTIMIZE et VACUUM pour la compaction

✓Deletion Vectors (suppressions sans réécriture)

✓Liquid Clustering (clustering automatique)

✓Compatibilité Iceberg via UniForm

Cas d'usage

Lakehouse Medallion avec Delta Lake

Les données brutes (Bronze) sont ingérées via Auto Loader, transformées en tables Delta Silver et Gold avec des opérations MERGE pour les corrections et mises à jour.

GDPR compliance sur le data lake

Delta Lake permet de supprimer les données personnelles d'un utilisateur avec DELETE WHERE via les Deletion Vectors, sans réécriture complète de la table.

✓ Points forts

+Standard de facto dans l'écosystème Databricks

+Performances excellentes grâce au Z-Ordering et data skipping

+Time Travel pour l'audit et le debugging

+Mature et bien supporté par Spark, Trino, Flink

✗ Limites

−Historiquement plus lié à l'écosystème Databricks qu'Iceberg

−Le delta log peut devenir très volumineux sur les tables très actives

−VACUUM doit être planifié pour éviter l'accumulation de fichiers

⚠️ Pièges connus en production

1.VACUUM sans paramétrer la rétention correctement supprime les fichiers nécessaires au Time Travel — toujours vérifier RETAIN x HOURS.

2.Les petits fichiers (small files problem) dégradent les performances de lecture. Lancer OPTIMIZE régulièrement.

3.Z-ORDER sur plusieurs colonnes peut être contre-productif si les combinaisons de colonnes dans les filtres varient beaucoup.

✓ Fait pour vous si…

Équipes utilisant Databricks ou Apache Spark qui ont besoin de transactions ACID et de MERGE/UPDATE/DELETE sur leur data lake.

✗ Pas fait pour vous si…

Organisations cherchant un format totalement neutre vis-à-vis d'un fournisseur (préférer Iceberg dans ce cas).

open-sourcelakehouseacidparquetdatabricks