Data Universe
Newsletter
AccueilOutilsDatabricks
Databricks logo

Databricks

Lakehouse / ML Platform

La plateforme Lakehouse unifiée pour la data et l'IA

Tarif

Pay-per-use (DBUs) — Trial 14 jours

Avancé

Databricks a inventé le concept de Lakehouse et construit Delta Lake. Plateforme unifiée couvrant data engineering, ML et analytics sur une seule interface. Forte adoption dans les équipes data + science qui veulent éviter les silos entre ces deux disciplines.

Delta Lake (ACID sur S3)
Apache Spark managé
MLflow intégré
Unity Catalog (gouvernance)
Delta Live Tables (pipelines déclaratifs)
Notebooks collaboratifs
DBSQL (BI sur Lakehouse)
Vector Search pour RAG
1

Entraînement de modèles ML à grande échelle

Les équipes data science utilisent Databricks pour entraîner des modèles sur des téraoctets de données via Spark, avec le tracking automatique des expériences grâce à MLflow intégré.

2

Lakehouse unifié (Delta Lake)

Databricks sert de couche de stockage et de traitement unique sur Delta Lake, éliminant la séparation entre data lake et data warehouse pour réduire la complexité architecturale.

3

Pipelines de données temps réel

Via Structured Streaming et Delta Live Tables, les équipes ingèrent et transforment des flux Kafka ou Kinesis en tables prêtes à l'analyse avec des garanties ACID.

4

Analytics collaboratif avec notebooks

Les data analysts et data scientists collaborent dans des notebooks partagés avec exécution distribuée, versioning Git intégré et gestion des droits par cluster.

✓ Points forts

+Meilleur de sa catégorie pour les workloads ML
+Delta Lake + Spark : combo puissant
+Notebooks collaboratifs excellents
+Unity Catalog : gouvernance unifiée
+Open source au cœur (Spark, MLflow, Delta)

✗ Limites

Courbe d'apprentissage Spark élevée
Coût difficile à prévoir et à optimiser
Interface moins intuitive que Snowflake pour le SQL pur
Nécessite des compétences avancées
Pas de version gratuite disponible (Community Edition officiellement discontinuée en 2024) — uniquement trial 14 jours

⚠️ Pièges connus en production

1.Shuffle partitions par défaut : Spark démarre avec 200 partitions de shuffle (spark.sql.shuffle.partitions). Sur de petits datasets, ça crée 200 tâches inutiles. Ajuster selon la taille réelle des données.
2.Delta VACUUM trop agressif : un VACUUM avec RETAIN 0 HOURS peut supprimer des fichiers encore référencés par des transactions concurrentes. Ne jamais descendre sous 7 jours en production.
3.Jobs clusters vs All-purpose clusters : utiliser un All-purpose cluster pour les jobs automatisés coûte 2-4x plus cher qu'un Jobs cluster. Réserver les All-purpose aux notebooks interactifs.
4.Unity Catalog et droits hérités : les permissions Unity Catalog ne se propagent pas automatiquement aux objets créés avant la migration. Auditer les droits après migration depuis l'ancien Hive metastore.

✓ Fait pour vous si…

Équipes Data Engineering + Data Science qui veulent une plateforme unique. Workloads mixtes SQL + Python + ML. Organisations avec un volume massif de données.

✗ Pas fait pour vous si…

Équipes purement analytiques/SQL sans compétences Spark. PMEs cherchant simplicité.

🎓 Databricks Certified Associate Developer for Apache Spark

Associé

Databricks

Voir la certification →

🎓 Databricks Certified Data Analyst Associate

Associé

Databricks

Voir la certification →

🎓 Databricks Certified Data Engineer Associate

Associé

Databricks

Voir la certification →

🎓 Databricks Certified Machine Learning Associate

Associé

Databricks

Voir la certification →

🎓 Databricks Certified Generative AI Engineer Associate

Associé

Databricks

Voir la certification →

🎓 Databricks Certified Context Engineer Associate

Associé

Databricks

Voir la certification →

🎓 Databricks Certified Data Engineer Professional

Professionnel

Databricks

Voir la certification →

🎓 Databricks Certified Machine Learning Professional

Professionnel

Databricks

Voir la certification →

Databricks Fundamentals Accreditation

Formation officielle

Databricks Academy

Gratuit

Apache Spark with Databricks

MOOC

Udemy

~15€

Introduction to Databricks

MOOC

DataCamp

~50€/mois
cloudsparkmllakehouseopen-source