Data Universe
Newsletter
GlossairePPartitioning
Engineering

Partitioning

Définition

Technique qui divise physiquement une table ou un ensemble de fichiers en sous-répertoires logiques selon les valeurs d'une ou plusieurs colonnes, typiquement la date (year=2024/month=01/day=15). Lors d'une requête filtrée sur la colonne de partition, le moteur ne lit que les partitions concernées (partition pruning), ignorant le reste, ce qui peut réduire les données scannées de 99% sur une table de plusieurs années. Le choix de la colonne de partition est critique : une cardinalité trop haute crée trop de petits fichiers (small files problem), une cardinalité trop basse offre peu de bénéfice. Le clustering (Snowflake) et le Z-ordering (Delta Lake) sont des alternatives pour des colonnes à haute cardinalité.

Exemples concrets

Hive-style partitioningBigQuery partitioned tablesSnowflake clustering keys
← Retour au glossaireTermes en “P

Fiche rapide

CatégorieEngineering
Exemples3 outils / technologies