Processus de détection et de correction (ou suppression) des données incorrectes, incomplètes, mal formatées ou dupliquées dans un dataset. Les opérations typiques : standardisation des formats (dates, numéros de téléphone, codes postaux), correction des coquilles et variantes orthographiques (fuzzy matching pour les noms d'entités), suppression des doublons (déduplication), traitement des valeurs manquantes (imputation ou exclusion), correction des valeurs aberrantes (outliers identifiés par règles métier ou méthodes statistiques), et harmonisation des référentiels (codes pays ISO vs. noms complets). En data engineering, le cleansing est souvent la couche 'Silver' dans l'architecture Medallion. Les règles de cleansing doivent être documentées, versionées et testées — un cleansing mal appliqué peut introduire plus de biais qu'il n'en supprime.