Z-Ordering

Définition

Technique de co-localisation des données dans les fichiers Parquet qui organise physiquement les lignes selon plusieurs colonnes simultanément (courbe de remplissage spatial multi-dimensionnelle). Quand une requête filtre sur les colonnes Z-ordonnées, le moteur peut sauter les fichiers entiers qui ne contiennent pas les valeurs recherchées (data skipping). Delta Lake et Iceberg supportent le Z-Ordering nativement. Exemple : une table d'événements Z-ordonnée sur (user_id, event_date) permettra de retrouver tous les événements d'un utilisateur sur une période donnée en lisant un minimum de fichiers. Le Z-Ordering est une optimisation post-ingestion : on lance OPTIMIZE ZORDER BY après les chargements batch. Il complète le partitioning (qui organise en répertoires) en affinant l'organisation au niveau des fichiers au sein d'une partition.

Exemples concrets

OPTIMIZE table ZORDER BY (col1, col2)Delta Lake Z-OrderIceberg sort orderData skipping avec Z-Order

← Retour au glossaire Termes en “Z”

Fiche rapide

CatégorieData Engineering

Exemples4 outils / technologies

Autres termes en Data Engineering

Apache Hudi →Backfill →Data Skew →DuckDB →Fact Table →