Data Drift

Définition

Changement dans la distribution statistique des données d'entrée d'un modèle en production par rapport à la distribution des données d'entraînement. Le data drift ne signifie pas nécessairement que les performances du modèle se dégradent (si la relation featuresâ†’target reste stable, c'est du concept drift), mais il est un signal d'alarme important. Exemple : un modèle de crédit entraîné sur des clients de 25-45 ans reçoit en production de plus en plus de clients de 60+ ans. Détection : tests statistiques de dérive (PSI — Population Stability Index, Kolmogorov-Smirnov, chi2 pour les catégorielles) sur chaque feature individuellement ou sur les embeddings. Le PSI > 0.2 indique généralement une dérive significative. Des outils comme Evidently, Arize, WhyLabs et Fiddler visualisent le data drift en production en comparant les distributions sur des fenêtres temporelles.

Exemples concrets

Population Stability Index (PSI)Evidently data drift reportKolmogorov-Smirnov testFeature distribution monitoring

← Retour au glossaire Termes en “D”

Fiche rapide

CatégorieMLOps

Exemples4 outils / technologies

Autres termes en MLOps

Canary Deployment (ML) →Champion/Challenger →CI/CD for ML →Concept Drift →Dataiku →