DuckDB est un moteur SQL analytique embarqué (in-process), conçu pour fonctionner directement dans Python, R, Node.js ou via CLI sans serveur. Il lit nativement Parquet, CSV, JSON et les DataFrames Pandas/Polars. En 2024-2025, DuckDB s'impose comme l'outil de référence pour les équipes data de petite et moyenne taille qui veulent des performances analytiques sans infrastructure.
Analyse de fichiers Parquet et CSV en mémoire
DuckDB lit directement des fichiers Parquet, CSV ou JSON depuis le disque ou S3 sans chargement préalable, permettant des agrégations analytiques sur plusieurs gigaoctets en quelques secondes sur un laptop.
Remplacement léger d'un entrepôt de données pour notebooks
Les data analysts embarquent DuckDB dans leurs notebooks Python ou R pour exécuter des requêtes SQL complexes sur des DataFrames Pandas ou Polars, sans serveur ni configuration.
Prototypage rapide de pipelines de données
Les ingénieurs data utilisent DuckDB pour valider des transformations SQL complexes localement avant de les pousser sur Snowflake ou BigQuery, réduisant les coûts de développement.
Analyse OLAP dans des applications WebAssembly
DuckDB compilé en WebAssembly s'exécute directement dans le navigateur, permettant des tableaux de bord analytiques côté client sans envoyer de données vers un serveur.
✓ Points forts
✗ Limites
✓ Fait pour vous si…
Analyses locales sur fichiers Parquet/CSV, remplacement de Pandas pour les transformations SQL, prototypage rapide, pipelines ELT sur données <50 Go.
✗ Pas fait pour vous si…
Données distribuées multi-nœuds, workloads temps réel, applications transactionnelles (OLTP).
DuckDB Fundamentals
Formation officielleMotherDuck
Documentation officielle DuckDB
DocumentationDuckDB Foundation
Analytical SQL with DuckDB
MOOCUdemy