🔄Techniques AnalyticsIntermédiaireLakehouse Architecture

Delta Lake

Couche de stockage open-source qui apporte les transactions ACID (fiabilité des bases relationnelles) aux fichiers Parquet du Data Lake.

💡Explication simple

Un Data Lake classique, c'est une salle des archives où tout le monde jette ses documents. Personne ne sait si un fichier est incomplet, corrompu ou en cours de modification. Delta Lake, c'est mettre en place un système de registre : chaque modification est journalisée, et si une écriture échoue en cours de route, les données restent cohérentes. Tu peux aussi « voyager dans le temps » pour voir l'état de tes données il y a 7 jours.

🏗️Exemple concret

Pipeline de données de transactions bancaires : sans Delta Lake, si le job Spark tombe au milieu d'une écriture, les données sont corrompues (fichiers partiels). Avec Delta Lake, la transaction est atomique (tout ou rien), la table peut être lue pendant l'écriture (isolation), et on peut annuler si nécessaire. Le 'Time Travel' : SELECT * FROM transactions VERSION AS OF 5 relit les données d'il y a 5 commits.

∑ Concept clé

ACID = Atomicité (tout ou rien) + Cohérence (intégrité) + Isolation (lectures simultanées sûres) + Durabilité (données persistées). Transaction log JSON journalise chaque opération.