Le format de table open source qui apporte les transactions ACID aux data lakes sur object storage
Tarif
Gratuit (open source). Les fonctionnalités avancées (Liquid Clustering, Deletion Vectors) sont disponibles sur Databricks.
Delta Lake est le format de table open source créé par Databricks, devenu le standard de facto pour les lakehouses. Il ajoute les transactions ACID, le time travel, le schema enforcement et les opérations MERGE/UPDATE/DELETE aux fichiers Parquet stockés sur S3 ou ADLS. Il est au cœur de l'architecture Databricks et supporte Apache Spark, PySpark, SQL et les APIs Python.
Lakehouse Medallion avec Delta Lake
Les données brutes (Bronze) sont ingérées via Auto Loader, transformées en tables Delta Silver et Gold avec des opérations MERGE pour les corrections et mises à jour.
GDPR compliance sur le data lake
Delta Lake permet de supprimer les données personnelles d'un utilisateur avec DELETE WHERE via les Deletion Vectors, sans réécriture complète de la table.
✓ Points forts
✗ Limites
⚠️ Pièges connus en production
✓ Fait pour vous si…
Équipes utilisant Databricks ou Apache Spark qui ont besoin de transactions ACID et de MERGE/UPDATE/DELETE sur leur data lake.
✗ Pas fait pour vous si…
Organisations cherchant un format totalement neutre vis-à-vis d'un fournisseur (préférer Iceberg dans ce cas).