Data Universe
Newsletter
Accueil/Encyclopédie/Architecture Lakehouse
🏗️Data EngineeringIntermédiaireArchitecture

Architecture Lakehouse

Architecture data qui combine la flexibilité et l'économie d'un Data Lake avec les performances ACID et les capacités analytiques d'un Data Warehouse.

💡Explication simple

Le Data Lake stocke tout (structuré, semi-structuré, non structuré) à bas coût sur S3 mais est difficile à interroger et manque de garanties ACID. Le Data Warehouse est performant et fiable mais cher et rigide. Le Lakehouse prend le meilleur des deux : stockage sur S3 (économique, flexible) + couche de format de table (Iceberg, Delta Lake) qui apporte les transactions ACID, le time travel et les performances analytiques. Databricks a popularisé le concept avec Delta Lake.

🏗️Exemple concret

Avant le lakehouse, une entreprise maintenait un Data Lake S3 (données brutes, ingestion facile) + Redshift (data warehouse pour les requêtes rapides). Synchronisation complexe, données dupliquées, coûts doublés. Après migration vers un lakehouse Delta Lake sur Databricks : une seule copie des données, les ingestions et les requêtes analytiques cohabitent, les UPDATES (correction de données historiques) sont possibles. Coût divisé par 2, latence de fraîcheur réduite de 4h à 15min.

🎯Quand l'utiliser ?

Remplacement d'une architecture Data Lake + Data Warehouse séparée
Besoin de combiner données structurées et non structurées
Cas d'usage ML et BI sur les mêmes données
Volume important où le Data Warehouse classique devient trop cher

✅ Avantages

+Économique (stockage objet) avec des performances warehouse
+ACID transactions sur le Data Lake
+Une seule copie des données pour tous les use cases

⚠️ Limites

Complexité de mise en place vs un data warehouse managé
L'optimisation des performances nécessite une expertise (Z-Ordering, compaction)
Moins mature que les data warehouses traditionnels sur certains aspects SQL

🛠️ Outils principaux

Delta Lake (Databricks)
Apache Iceberg
Apache Hudi
Databricks
Snowflake (supporte Iceberg)
LakehouseDelta LakeIcebergArchitectureS3

Concepts liés

âš¡

Apache Flink — Stream processing temps réel

Streaming

🧊

Apache Iceberg

Lakehouse Architecture

🥇

Architecture Medallion (Bronze / Silver / Gold)

Architecture data

📡

Change Data Capture (CDC)

Ingestion de données

← Retour à l'encyclopédie