Data Cleansing

Définition

Processus de détection et de correction (ou suppression) des données incorrectes, incomplètes, mal formatées ou dupliquées dans un dataset. Les opérations typiques : standardisation des formats (dates, numéros de téléphone, codes postaux), correction des coquilles et variantes orthographiques (fuzzy matching pour les noms d'entités), suppression des doublons (déduplication), traitement des valeurs manquantes (imputation ou exclusion), correction des valeurs aberrantes (outliers identifiés par règles métier ou méthodes statistiques), et harmonisation des référentiels (codes pays ISO vs. noms complets). En data engineering, le cleansing est souvent la couche 'Silver' dans l'architecture Medallion. Les règles de cleansing doivent être documentées, versionées et testées — un cleansing mal appliqué peut introduire plus de biais qu'il n'en supprime.

Exemples concrets

Déduplication record linkage (dedupe.io)Fuzzy matching thefuzzOpenRefine pour le cleansing interactifdbt tests + corrections dans les transformations

← Retour au glossaire Termes en “D”

Fiche rapide

CatégorieQualité

Exemples4 outils / technologies

Autres termes en Qualité

Data Profiling →Data Quality →Great Expectations →Imputation (Valeurs Manquantes) →Observabilité des données →