Capacité à comprendre en continu l'état de santé des données en production, en surveillant cinq piliers clés : la fraîcheur (les données ont-elles été mises à jour comme prévu ?), le volume (le nombre de lignes est-il normal ?), la distribution (les statistiques des colonnes ont-elles changé brutalement ?), le schéma (une colonne a-t-elle été ajoutée ou supprimée ?) et la lignée (les dépendances sont-elles intactes ?). Cette discipline, popularisée par Monte Carlo, s'inspire de l'observabilité logicielle (logs, métriques, traces). L'objectif est de détecter proactivement les incidents de données (data downtime) avant qu'ils n'impactent les décisions business ou les modèles ML.