Architecture Lakehouse

Architecture data qui combine la flexibilité et l'économie d'un Data Lake avec les performances ACID et les capacités analytiques d'un Data Warehouse.

💡Explication simple

Le Data Lake stocke tout (structuré, semi-structuré, non structuré) à bas coût sur S3 mais est difficile à interroger et manque de garanties ACID. Le Data Warehouse est performant et fiable mais cher et rigide. Le Lakehouse prend le meilleur des deux : stockage sur S3 (économique, flexible) + couche de format de table (Iceberg, Delta Lake) qui apporte les transactions ACID, le time travel et les performances analytiques. Databricks a popularisé le concept avec Delta Lake.

🏗️Exemple concret

Avant le lakehouse, une entreprise maintenait un Data Lake S3 (données brutes, ingestion facile) + Redshift (data warehouse pour les requêtes rapides). Synchronisation complexe, données dupliquées, coûts doublés. Après migration vers un lakehouse Delta Lake sur Databricks : une seule copie des données, les ingestions et les requêtes analytiques cohabitent, les UPDATES (correction de données historiques) sont possibles. Coût divisé par 2, latence de fraîcheur réduite de 4h à 15min.

🎯Quand l'utiliser ?

✓Remplacement d'une architecture Data Lake + Data Warehouse séparée

✓Besoin de combiner données structurées et non structurées

✓Cas d'usage ML et BI sur les mêmes données

✓Volume important où le Data Warehouse classique devient trop cher

✅ Avantages

+0conomique (stockage objet) avec des performances warehouse

+ACID transactions sur le Data Lake

+Une seule copie des données pour tous les use cases

⚠️ Limites

−Complexité de mise en place vs un data warehouse managé

−L'optimisation des performances nécessite une expertise (Z-Ordering, compaction)

−Moins mature que les data warehouses traditionnels sur certains aspects SQL

🛠️ Outils principaux

Delta Lake (Databricks)

Apache Iceberg

Apache Hudi

Databricks

Snowflake (supporte Iceberg)

LakehouseDelta LakeIcebergArchitectureS3

Concepts liés

⚡

Apache Flink — Stream processing temps réel

Streaming

🧊

Apache Iceberg

Lakehouse Architecture

🔍

Architecture Medallion (Bronze / Silver / Gold)

Architecture data

🔧

Change Data Capture (CDC)

Ingestion de données

← Retour à l'encyclopédie