Data Universe
Newsletter
Accueil/Encyclopédie/Lakehouse Architecture
🏠Data EngineeringIntermédiaireLakehouse Architecture

Lakehouse Architecture

Paradigme qui combine les avantages du Data Lake (stockage brut bas coût) et du Data Warehouse (ACID, performance SQL) dans une architecture unifiée.

💡Explication simple

Le Data Lake stocke tout à bas coût mais sans fiabilité ni performance. Le Data Warehouse est rapide et fiable mais coûteux et rigide. Le Lakehouse dit : gardons les fichiers ouverts dans le cloud (comme un Data Lake) mais ajoutons une couche de transactions ACID et d'optimisation (Delta Lake, Iceberg) pour avoir la performance d'un Data Warehouse. Un seul endroit pour tout : données brutes, analytique et ML.

🏗️Exemple concret

Architecture Databricks Lakehouse : données brutes dans S3/ADLS (Bronze), transformées avec Delta Lake (Silver), agrégées pour le reporting (Gold). Le même dataset sert à la fois pour Tableau (SQL analytique), les modèles ML (Spark) et les rapports réglementaires (requêtes complexes). Avant : 3 systèmes séparés, 3 équipes distinctes.

∑ Concept clé

Lakehouse = Cloud Object Storage + Format de Table Ouvert (Delta/Iceberg) + Couche de Métadonnées + Moteur de Requêtes (Spark/Trino) + Gouvernance (Unity Catalog)

🎯Quand l'utiliser ?

Remplacer une architecture Data Lake + Data Warehouse séparés
Unifier les workloads BI et ML sur la même plateforme
Réduire les coûts de copie de données entre systèmes

✅ Avantages

+Une seule copie des données (pas de duplication Lake → Warehouse)
+Format ouvert : pas de vendor lock-in complet
+Supporte BI, ML et streaming sur la même plateforme

⚠️ Limites

Performance SQL parfois inférieure aux DW spécialisés pour des workloads purement BI
Complexité opérationnelle des formats de table (compaction, vacuuming)
Maturité encore inférieure aux DW établis (Snowflake, Redshift)

🛠️ Outils principaux

Databricks (Delta Lake)
Apache Iceberg + Trino/Spark
Microsoft Fabric
AWS Lake Formation + S3 Tables
Data EngineeringArchitectureDelta LakeLakehouseBig Data

Concepts liés

âš¡

Apache Flink — Stream processing temps réel

Streaming

🧊

Apache Iceberg

Lakehouse Architecture

🏗️

Architecture Lakehouse

Architecture

🥇

Architecture Medallion (Bronze / Silver / Gold)

Architecture data

← Retour à l'encyclopédie