Great Expectations (GX) est le standard open source pour tester la qualité des données dans les pipelines. Il permet de définir des 'expectations' (règles métier) sur les données, de les exécuter automatiquement et de générer une documentation de qualité ('Data Docs'). S'intègre nativement avec Airflow, Spark, dbt, Pandas et la majorité des warehouses cloud.
Validation automatique de la qualité des données en pipeline
Great Expectations définit des suites de règles (expectations) sur les DataFrames ou tables SQL et les exécute automatiquement à chaque ingestion, bloquant le pipeline si les données ne respectent pas le contrat.
Documentation automatique des données via Data Docs
GX génère automatiquement des pages HTML décrivant la structure attendue des datasets, les résultats de validation et les statistiques observées, servant de documentation vivante pour les équipes data.
Profiling de données et détection de dérives
GX profile automatiquement les distributions d'un dataset de référence et détecte lors des validations suivantes les changements de distribution, les nouvelles valeurs nulles ou les colonnes ajoutées.
Contrat de données entre équipes productrice et consommatrice
Les équipes ingénierie formalisent leurs garanties sur les données via des expectation suites versionées dans Git, que les équipes data science utilisent comme SLA pour planifier leurs modèles.
✓ Points forts
✗ Limites
✓ Fait pour vous si…
Équipes data engineering qui veulent tester automatiquement la qualité des données dans leurs pipelines CI/CD. Particulièrement adapté aux pipelines Pandas/Spark et aux équipes qui n'utilisent pas encore dbt.
✗ Pas fait pour vous si…
Équipes déjà full dbt (dbt tests couvre l'essentiel). Cas d'usage très simples avec quelques règles basiques.
Documentation officielle Great Expectations
DocumentationGreat Expectations / GX Cloud
Data Quality with Great Expectations
MOOCUdemy
Data Quality Fundamentals
MOOCDataCamp