Data Universe
Newsletter
GlossaireGGreat Expectations
Qualité

Great Expectations

Définition

Framework open source Python de validation de la qualité des données qui permet de définir des « expectations » (attentes) sur les propriétés statistiques d'un dataset : unicité d'une colonne, absence de nulls, plage de valeurs attendues, conformité à une regex. Ces expectations sont exécutables automatiquement dans les pipelines (Airflow, dbt, Spark) et génèrent des rapports HTML détaillés appelés Data Docs, documentant l'état de qualité des données à chaque exécution. GE résout deux problèmes : la détection proactive d'anomalies avant qu'elles n'atteignent la production, et la documentation vivante de ce que les données sont censées contenir. Son principal concurrent est Soda Core.

Exemples concrets

GE avec AirflowGE avec SparkData Docs (documentation automatique)
← Retour au glossaireTermes en “G

Fiche rapide

CatégorieQualité
Exemples3 outils / technologies