Data Universe
Newsletter
AccueilOutilsDuckDB
DuckDB logo

DuckDB

Query Engine

Le moteur SQL analytique embarqué le plus rapide pour les petits volumes

Tarif

Gratuit

Open sourceFree tierFacile

DuckDB est un moteur SQL analytique embarqué (in-process), conçu pour fonctionner directement dans Python, R, Node.js ou via CLI sans serveur. Il lit nativement Parquet, CSV, JSON et les DataFrames Pandas/Polars. En 2024-2025, DuckDB s'impose comme l'outil de référence pour les équipes data de petite et moyenne taille qui veulent des performances analytiques sans infrastructure.

Moteur SQL OLAP in-process
Lecture directe Parquet/CSV/JSON/Iceberg
Intégration native Pandas et Polars
Vectorized query engine
Parallel query execution
Zero dependency (pas de serveur)
Compatible ADBC et Arrow Flight
1

Analyse de fichiers Parquet et CSV en mémoire

DuckDB lit directement des fichiers Parquet, CSV ou JSON depuis le disque ou S3 sans chargement préalable, permettant des agrégations analytiques sur plusieurs gigaoctets en quelques secondes sur un laptop.

2

Remplacement léger d'un entrepôt de données pour notebooks

Les data analysts embarquent DuckDB dans leurs notebooks Python ou R pour exécuter des requêtes SQL complexes sur des DataFrames Pandas ou Polars, sans serveur ni configuration.

3

Prototypage rapide de pipelines de données

Les ingénieurs data utilisent DuckDB pour valider des transformations SQL complexes localement avant de les pousser sur Snowflake ou BigQuery, réduisant les coûts de développement.

4

Analyse OLAP dans des applications WebAssembly

DuckDB compilé en WebAssembly s'exécute directement dans le navigateur, permettant des tableaux de bord analytiques côté client sans envoyer de données vers un serveur.

✓ Points forts

+Zéro infrastructure à déployer
+Extrêmement rapide sur les fichiers locaux (souvent plus que Spark pour <50 Go)
+Intégration Python triviale (import duckdb)
+Open source, 100% gratuit
+SQL complet avec window functions et CTEs
+Lit directement S3 sans téléchargement

✗ Limites

Limité aux données tenant en mémoire ou sur un seul nœud (pas distribué)
Pas adapté aux workloads temps réel
Pas de gestion des utilisateurs/permissions
Moins adapté que Spark pour les volumes >100 Go sur cluster

✓ Fait pour vous si…

Analyses locales sur fichiers Parquet/CSV, remplacement de Pandas pour les transformations SQL, prototypage rapide, pipelines ELT sur données <50 Go.

✗ Pas fait pour vous si…

Données distribuées multi-nœuds, workloads temps réel, applications transactionnelles (OLTP).

DuckDB Fundamentals

Formation officielle

MotherDuck

Gratuit

Documentation officielle DuckDB

Documentation

DuckDB Foundation

Gratuit

Analytical SQL with DuckDB

MOOC

Udemy

~15€
open-sourcesqlanalyticspythonembeddedparquet