🏗️Exemple concret
Un data engineer a 50 fichiers Parquet sur S3 représentant 30 Go de transactions. Sans DuckDB : télécharger les fichiers, lancer Spark, attendre. Avec DuckDB : `import duckdb; duckdb.sql("SELECT * FROM 's3://bucket/*.parquet' WHERE montant > 1000")` — résultat en 4 secondes, zero configuration. dbt supporte DuckDB comme adaptateur pour le dev local.
🎯Quand l'utiliser ?
✓Développement et test local de pipelines data sans cluster
✓Analyse exploratoire sur des fichiers Parquet/CSV/JSON volumineux
✓Transformations légères qui ne nécessitent pas Spark
✓Pipeline serverless (AWS Lambda + DuckDB)
✅ Avantages
+Zero configuration, s'importe comme une librairie
+Lecture directe de Parquet S3 sans téléchargement
+SQL ANSI complet avec des fonctions avancées
⚠️ Limites
−Limité à la mémoire du processus (pas distribué)
−Ne remplace pas Spark pour les datasets multi-To
−Certaines opérations complexes sont plus lentes que Spark distribué
🛠️ Outils principaux
DuckDB (Python, R, CLI)
MotherDuck (DuckDB cloud)
dbt + DuckDB
Harlequin (UI)
Evidence (BI léger sur DuckDB)
AnalyticsSQLParquetIn-processLocalLéger