Data Universe
Newsletter
Accueil/Encyclopédie/DuckDB — Analytics sur laptop
🦆Data EngineeringIntermédiaireQuery engines

DuckDB — Analytics sur laptop

Base de données analytique in-process qui tourne directement dans Python/R sans serveur, et lit nativement les fichiers Parquet sur S3 comme si c'était une table SQL.

💡Explication simple

Imaginer pouvoir faire du BigQuery directement dans ton notebook Jupyter, sans rien installer de plus, sur des fichiers Parquet stockés sur ton disque ou sur S3. C'est DuckDB. Il s'importe comme une librairie Python, exécute du SQL ANSI complet (fenêtres, CTEs, UNNEST) sur des dizaines de Go de données en quelques secondes sur un laptop, sans démarrer de cluster Spark. C'est révolutionnaire pour le développement local et les analyses exploratoires.

🏗️Exemple concret

Un data engineer a 50 fichiers Parquet sur S3 représentant 30 Go de transactions. Sans DuckDB : télécharger les fichiers, lancer Spark, attendre. Avec DuckDB : `import duckdb; duckdb.sql("SELECT * FROM 's3://bucket/*.parquet' WHERE montant > 1000")` — résultat en 4 secondes, zero configuration. dbt supporte DuckDB comme adaptateur pour le dev local.

🎯Quand l'utiliser ?

Développement et test local de pipelines data sans cluster
Analyse exploratoire sur des fichiers Parquet/CSV/JSON volumineux
Transformations légères qui ne nécessitent pas Spark
Pipeline serverless (AWS Lambda + DuckDB)

✅ Avantages

+Zero configuration, s'importe comme une librairie
+Lecture directe de Parquet S3 sans téléchargement
+SQL ANSI complet avec des fonctions avancées

⚠️ Limites

Limité à la mémoire du processus (pas distribué)
Ne remplace pas Spark pour les datasets multi-To
Certaines opérations complexes sont plus lentes que Spark distribué

🛠️ Outils principaux

DuckDB (Python, R, CLI)
MotherDuck (DuckDB cloud)
dbt + DuckDB
Harlequin (UI)
Evidence (BI léger sur DuckDB)
AnalyticsSQLParquetIn-processLocalLéger

Concepts liés

âš¡

Apache Flink — Stream processing temps réel

Streaming

🧊

Apache Iceberg

Lakehouse Architecture

🏗️

Architecture Lakehouse

Architecture

🥇

Architecture Medallion (Bronze / Silver / Gold)

Architecture data

← Retour à l'encyclopédie