Partitioning

Définition

Technique qui divise physiquement une table ou un ensemble de fichiers en sous-répertoires logiques selon les valeurs d'une ou plusieurs colonnes, typiquement la date (year=2024/month=01/day=15). Lors d'une requête filtrée sur la colonne de partition, le moteur ne lit que les partitions concernées (partition pruning), ignorant le reste, ce qui peut réduire les données scannées de 99% sur une table de plusieurs années. Le choix de la colonne de partition est critique : une cardinalité trop haute crée trop de petits fichiers (small files problem), une cardinalité trop basse offre peu de bénéfice. Le clustering (Snowflake) et le Z-ordering (Delta Lake) sont des alternatives pour des colonnes à haute cardinalité.

Exemples concrets

Hive-style partitioningBigQuery partitioned tablesSnowflake clustering keys

← Retour au glossaire Termes en “P”

Fiche rapide

CatégorieEngineering

Exemples3 outils / technologies

Autres termes en Engineering

Airbyte →Apache Airflow →API REST →CDC (Change Data Capture) →Dagster →