Accueil›Outils›Databricks

Databricks

Lakehouse / ML Platform

La plateforme Lakehouse unifiée pour la data et l'IA

Tarif

Pay-per-use (DBUs) — Trial 14 jours

Avancé

Présentation

Databricks a inventé le concept de Lakehouse et construit Delta Lake. Plateforme unifiée couvrant data engineering, ML et analytics sur une seule interface. Forte adoption dans les équipes data + science qui veulent éviter les silos entre ces deux disciplines.

Fonctionnalités clés

✓Delta Lake (ACID sur S3)

✓Apache Spark managé

✓MLflow intégré

✓Unity Catalog (gouvernance)

✓Delta Live Tables (pipelines déclaratifs)

✓Notebooks collaboratifs

✓DBSQL (BI sur Lakehouse)

✓Vector Search pour RAG

Cas d'usage

Entraînement de modèles ML à grande échelle

Les équipes data science utilisent Databricks pour entraîner des modèles sur des téraoctets de données via Spark, avec le tracking automatique des expériences grâce à MLflow intégré.

Lakehouse unifié (Delta Lake)

Databricks sert de couche de stockage et de traitement unique sur Delta Lake, éliminant la séparation entre data lake et data warehouse pour réduire la complexité architecturale.

Pipelines de données temps réel

Via Structured Streaming et Delta Live Tables, les équipes ingèrent et transforment des flux Kafka ou Kinesis en tables prêtes à l'analyse avec des garanties ACID.

Analytics collaboratif avec notebooks

Les data analysts et data scientists collaborent dans des notebooks partagés avec exécution distribuée, versioning Git intégré et gestion des droits par cluster.

✓ Points forts

+Meilleur de sa catégorie pour les workloads ML

+Delta Lake + Spark : combo puissant

+Notebooks collaboratifs excellents

+Unity Catalog : gouvernance unifiée

+Open source au cœur (Spark, MLflow, Delta)

✗ Limites

−Courbe d'apprentissage Spark élevée

−Coût difficile à prévoir et à optimiser

−Interface moins intuitive que Snowflake pour le SQL pur

−Nécessite des compétences avancées

−Pas de version gratuite disponible (Community Edition officiellement discontinuée en 2024) — uniquement trial 14 jours

⚠️ Pièges connus en production

1.Shuffle partitions par défaut : Spark démarre avec 200 partitions de shuffle (spark.sql.shuffle.partitions). Sur de petits datasets, ça crée 200 tâches inutiles. Ajuster selon la taille réelle des données.

2.Delta VACUUM trop agressif : un VACUUM avec RETAIN 0 HOURS peut supprimer des fichiers encore référencés par des transactions concurrentes. Ne jamais descendre sous 7 jours en production.

3.Jobs clusters vs All-purpose clusters : utiliser un All-purpose cluster pour les jobs automatisés coûte 2-4x plus cher qu'un Jobs cluster. Réserver les All-purpose aux notebooks interactifs.

4.Unity Catalog et droits hérités : les permissions Unity Catalog ne se propagent pas automatiquement aux objets créés avant la migration. Auditer les droits après migration depuis l'ancien Hive metastore.

✓ Fait pour vous si…

Équipes Data Engineering + Data Science qui veulent une plateforme unique. Workloads mixtes SQL + Python + ML. Organisations avec un volume massif de données.

✗ Pas fait pour vous si…

Équipes purement analytiques/SQL sans compétences Spark. PMEs cherchant simplicité.

Certifications associées

🎓 Databricks Certified Associate Developer for Apache Spark

Associé

Databricks

Voir la certification →

🎓 Databricks Certified Data Analyst Associate

Associé

Databricks

Voir la certification →

🎓 Databricks Certified Data Engineer Associate