Data Skew

Définition

Déséquilibre dans la distribution des données entre les partitions d'un job distribué (Spark, Flink) qui entraîne une surcharge sur certains workers pendant que d'autres sont inactifs. Se manifeste quand une clé de jointure ou de groupement est très fréquente (ex: user_id NULL, pays='US' représentant 80% des données). Les symptômes : une ou plusieurs tâches Spark prennent 10x plus de temps que les autres, OOM sur les executors surchargés. Solutions : salting (ajouter un suffixe aléatoire à la clé pour distribuer), broadcast join (répliquer la petite table sur tous les workers), repartition explicite avec coalesce/repartition, ou adaptive query execution (AQE) de Spark 3 qui détecte et corrige le skew automatiquement. Le data skew est une des causes les plus fréquentes de lenteur inexpliquée dans les pipelines Spark.

Exemples concrets

Spark Adaptive Query Execution (AQE)Salting techniqueBroadcast joinskewedJoin hint Spark SQL

← Retour au glossaire Termes en “D”

Fiche rapide

CatégorieData Engineering

Exemples4 outils / technologies

Autres termes en Data Engineering

Apache Hudi →Backfill →DuckDB →Fact Table →Pandas →