Data Universe
Newsletter
Accueil/Encyclopédie/Delta Lake
🌊Techniques AnalyticsIntermédiaireLakehouse Architecture

Delta Lake

Couche de stockage open-source qui apporte les transactions ACID (fiabilité des bases relationnelles) aux fichiers Parquet du Data Lake.

💡Explication simple

Un Data Lake classique, c'est une salle des archives où tout le monde jette ses documents. Personne ne sait si un fichier est incomplet, corrompu ou en cours de modification. Delta Lake, c'est mettre en place un système de registre : chaque modification est journalisée, et si une écriture échoue en cours de route, les données restent cohérentes. Tu peux aussi « voyager dans le temps » pour voir l'état de tes données il y a 7 jours.

🏗️Exemple concret

Pipeline de données de transactions bancaires : sans Delta Lake, si le job Spark tombe au milieu d'une écriture, les données sont corrompues (fichiers partiels). Avec Delta Lake, la transaction est atomique (tout ou rien), la table peut être lue pendant l'écriture (isolation), et on peut annuler si nécessaire. Le 'Time Travel' : SELECT * FROM transactions VERSION AS OF 5 relit les données d'il y a 5 commits.

∑ Concept clé

ACID = Atomicité (tout ou rien) + Cohérence (intégrité) + Isolation (lectures simultanées sûres) + Durabilité (données persistées). Transaction log JSON journalise chaque opération.

🎯Quand l'utiliser ?

Data Lakehouse (remplace le Data Warehouse ET le Data Lake)
Pipelines avec mise à jour ou suppression de données (MERGE, UPDATE, DELETE)
Données réglementées nécessitant audit trail

✅ Avantages

+ACID sur le Data Lake (impossible avec Parquet pur)
+Time Travel (rollback, audit)
+Schema evolution (ajout de colonnes sans casser les lectures)

⚠️ Limites

Principalement optimisé pour Spark/Databricks
Overhead du transaction log sur de très nombreux petits fichiers
Alternatives : Apache Iceberg (neutre) et Apache Hudi

🛠️ Outils principaux

Delta Lake (open source)
Databricks (Delta Engine)
Apache Spark
AWS Glue (support Delta)
Data EngineeringLakehouseACIDDatabricks

Concepts liés

🧪

A/B Testing

Expérimentation

👥

Analyse de cohortes

Analytics Produit

🔽

Analyse d'entonnoir (Funnel Analysis)

Analytics Produit

🛒

Analyse du panier — Market Basket Analysis

Analytics Retail

← Retour à l'encyclopédie