Data Quality

Définition

Mesure dans laquelle les données sont fiables et aptes à leur usage prévu, évaluée selon plusieurs dimensions : exactitude (les valeurs correspondent-elles à la réalité ?), complétude (absence de nulls sur des champs critiques), cohérence (les mêmes règles sont-elles appliquées dans tous les systèmes ?), fraîcheur (les données sont-elles à jour ?), unicité (absence de doublons) et validité (les valeurs respectent-elles les formats attendus ?). Une mauvaise qualité des données est la première cause d'échec des projets analytiques et ML. Les frameworks de test (Great Expectations, dbt tests, Soda) automatisent la vérification de ces dimensions dans les pipelines et alertent en cas de violation.

Exemples concrets

Great Expectationsdbt testsSoda CoreMonte Carlo

← Retour au glossaire Termes en “D”

Fiche rapide

CatégorieQualité

Exemples4 outils / technologies

Autres termes en Qualité

Data Cleansing →Data Profiling →Great Expectations →Imputation (Valeurs Manquantes) →Observabilité des données →