Imputation (Valeurs Manquantes)

Définition

Techniques pour remplacer les valeurs manquantes dans un dataset par des valeurs estimées plutôt que de supprimer les lignes concernées (ce qui peut introduire un biais si les données ne sont pas manquantes aléatoirement). Stratégies selon le mécanisme de manque : MCAR (Missing Completely At Random — imputation simple acceptable), MAR (Missing At Random — imputation conditionnelle), MNAR (Missing Not At Random — le manque est lié à la valeur elle-même — cas le plus complexe). Méthodes : imputation simple (moyenne, médiane, mode — rapide mais ne capture pas l'incertitude), k-NN (imputer avec la valeur du voisin le plus proche), MICE (Multiple Imputation by Chained Equations — modèle prédictif itératif pour chaque colonne), et MissForest (Random Forest pour l'imputation). En ML, certains algorithmes (XGBoost, LightGBM) gèrent nativement les valeurs manquantes. L'indication 'manquant' peut elle-même être une feature informative.

Exemples concrets

SimpleImputer (scikit-learn)IterativeImputer (MICE)MissForestXGBoost gestion native NaN

← Retour au glossaire Termes en “I”

Fiche rapide

CatégorieQualité

Exemples4 outils / technologies

Autres termes en Qualité

Data Cleansing →Data Profiling →Data Quality →Great Expectations →Observabilité des données →