Data Universe
Newsletter
GlossaireDData Cleansing
Qualité

Data Cleansing

Définition

Processus de détection et de correction (ou suppression) des données incorrectes, incomplètes, mal formatées ou dupliquées dans un dataset. Les opérations typiques : standardisation des formats (dates, numéros de téléphone, codes postaux), correction des coquilles et variantes orthographiques (fuzzy matching pour les noms d'entités), suppression des doublons (déduplication), traitement des valeurs manquantes (imputation ou exclusion), correction des valeurs aberrantes (outliers identifiés par règles métier ou méthodes statistiques), et harmonisation des référentiels (codes pays ISO vs. noms complets). En data engineering, le cleansing est souvent la couche 'Silver' dans l'architecture Medallion. Les règles de cleansing doivent être documentées, versionées et testées — un cleansing mal appliqué peut introduire plus de biais qu'il n'en supprime.

Exemples concrets

Déduplication record linkage (dedupe.io)Fuzzy matching thefuzzOpenRefine pour le cleansing interactifdbt tests + corrections dans les transformations
← Retour au glossaireTermes en “D

Fiche rapide

CatégorieQualité
Exemples4 outils / technologies