DuckDB — Analytics sur laptop

Base de données analytique in-process qui tourne directement dans Python/R sans serveur, et lit nativement les fichiers Parquet sur S3 comme si c'était une table SQL.

💡Explication simple

Imaginer pouvoir faire du BigQuery directement dans ton notebook Jupyter, sans rien installer de plus, sur des fichiers Parquet stockés sur ton disque ou sur S3. C'est DuckDB. Il s'importe comme une librairie Python, exécute du SQL ANSI complet (fenêtres, CTEs, UNNEST) sur des dizaines de Go de données en quelques secondes sur un laptop, sans démarrer de cluster Spark. C'est révolutionnaire pour le développement local et les analyses exploratoires.

🏗️Exemple concret

Un data engineer a 50 fichiers Parquet sur S3 représentant 30 Go de transactions. Sans DuckDB : télécharger les fichiers, lancer Spark, attendre. Avec DuckDB : `import duckdb; duckdb.sql("SELECT * FROM 's3://bucket/*.parquet' WHERE montant > 1000")` — résultat en 4 secondes, zero configuration. dbt supporte DuckDB comme adaptateur pour le dev local.

SQLexemple

-- DuckDB : analyser un CSV directement sans pipeline ETL
SELECT
  region,
  product_category,
  SUM(revenue)  AS total_revenue,
  COUNT(*)      AS nb_orders,
  AVG(quantity) AS avg_qty
FROM read_csv_auto('sales_2024.csv')
WHERE date >= '2024-01-01'
GROUP BY 1, 2
ORDER BY total_revenue DESC
LIMIT 20;

-- Lire des fichiers Parquet depuis S3
SELECT * FROM parquet_scan('s3://bucket/data/*.parquet')
WHERE country = 'France'
LIMIT 100;

🎯Quand l'utiliser ?

✓Développement et test local de pipelines data sans cluster

✓Analyse exploratoire sur des fichiers Parquet/CSV/JSON volumineux

✓Transformations légères qui ne nécessitent pas Spark

✓Pipeline serverless (AWS Lambda + DuckDB)

✅ Avantages

+Zero configuration, s'importe comme une librairie

+Lecture directe de Parquet S3 sans téléchargement

+SQL ANSI complet avec des fonctions avancées

⚠️ Limites

−Limité à la mémoire du processus (pas distribué)

−Ne remplace pas Spark pour les datasets multi-To

−Certaines opérations complexes sont plus lentes que Spark distribué

🛠️ Outils principaux

DuckDB (Python, R, CLI)

MotherDuck (DuckDB cloud)

dbt + DuckDB

Harlequin (UI)

Evidence (BI léger sur DuckDB)

AnalyticsSQLParquetIn-processLocalLéger

Concepts liés

⚡

Apache Flink — Stream processing temps réel

Streaming

🧊

Apache Iceberg

Lakehouse Architecture

🏠

Architecture Lakehouse

Architecture

🔍

Architecture Medallion (Bronze / Silver / Gold)

Architecture data

← Retour à l'encyclopédie