Databricks — Unified Analytics Platform

Plateforme unifiée fondée sur Apache Spark qui combine data engineering, data science, ML et BI sur un lakehouse Delta Lake, disponible sur AWS, Azure et GCP.

💡Explication simple

Databricks a créé le concept de Lakehouse : combiner la flexibilité d'un Data Lake (stocker n'importe quoi) avec les performances et la fiabilité d'un Data Warehouse (requêtes rapides, transactions ACID). Tout tourne sur Delta Lake, leur format de table open source. Les data engineers font tourner leurs pipelines Spark, les data scientists font leurs notebooks Python/R/SQL, les ML engineers déploient des modèles — sur la même plateforme avec le même catalogue de données.

🏗️Exemple concret

Un groupe bancaire migre son architecture de 3 silos séparés (data lake S3, Redshift, SageMaker) vers Databricks sur AWS. Résultat : un seul catalogue Unity Catalog pour toutes les données, les pipelines dbt tournent sur Databricks SQL, les modèles ML sont managés dans MLflow intégré. Réduction de la complexité opérationnelle de 60%.

🎯Quand l'utiliser ?

✓Architecture Lakehouse unifiée data + ML

✓Pipelines Spark complexes sur très grands datasets

✓0quipes qui mélangent data engineering et data science

✓Remplacement d'un data lake + data warehouse séparés

✅ Avantages

+Lakehouse unifié : un seul endroit pour tout

+MLflow intégré pour le tracking d'expériences ML

+Auto-scaling et optimisation automatique des requêtes

⚠️ Limites

−Coût élevé (Databricks + coût cloud sous-jacent)

−Complexité d'administration pour les petites équipes

−Vendor lock-in progressif malgré l'open source

🛠️ Outils principaux

Delta Lake

MLflow (intégré)

Unity Catalog

Databricks SQL

AutoML Databricks

LakehouseSparkCloudDelta LakeMLOps

Concepts liés

☁️

Amazon Kinesis Data Streams

AWS - Streaming

☁️

Amazon Redshift

AWS - Data Warehouse

🔗

Amazon S3 (Simple Storage Service)

AWS - Stockage

☁️

Amazon SageMaker

AWS - Machine Learning

← Retour à l'encyclopédie