Data Universe
Newsletter
GlossairePParquet
Infrastructure

Parquet

Définition

Format de fichier open source orienté colonnes (columnar) conçu pour les requêtes analytiques. Dans un format orienté lignes (CSV, JSON), lire une seule colonne implique de parcourir toutes les lignes ; Parquet stocke chaque colonne séparément, ce qui permet de ne lire que les colonnes nécessaires à une requête, réduisant drastiquement les I/O. La compression est très efficace car les valeurs d'une même colonne sont souvent similaires. Le schéma est intégré dans les métadonnées du fichier, évitant toute ambiguïté. Parquet est le format par défaut des data lakes modernes et de tous les frameworks analytiques (Spark, Flink, DuckDB, Arrow).

Exemples concrets

Parquet sur S3Parquet dans Delta LakePyArrow pour lire du Parquet
← Retour au glossaireTermes en “P

Fiche rapide

CatégorieInfrastructure
Exemples3 outils / technologies