Data Universe
Newsletter
Accueil/Encyclopédie/Data Quality et Great Expectations
✅Gouvernance & QualitéIntermédiaireData Quality

Data Quality et Great Expectations

La qualité des données désigne leur aptitude à être utilisées. Great Expectations est le framework Python de référence pour définir, tester et documenter des règles de qualité comme des tests automatisés.

💡Explication simple

Imaginer livrer un rapport financier avec des montants négatifs, des dates dans le futur ou des doublons. La data quality, c'est définir des règles explicites (« le montant doit être positif », « l'identifiant est unique », « la date ne peut pas dépasser aujourd'hui ») et les tester automatiquement à chaque chargement. Great Expectations, c'est le framework Python qui transforme ces règles en tests exécutables, comme des tests unitaires pour ta donnée.

🏗️Exemple concret

Pipeline de facturation : Great Expectations vérifie avant chaque chargement que montant > 0 (99.8% des lignes), client_id n'est pas null (100%), date_facture <= today (100%), montant_total = SUM(lignes). Si un test échoue, le pipeline est bloqué et une alerte est envoyée. Avant GE : erreurs découvertes par les métiers 2 jours plus tard. Après : en 5 minutes.

∑ Concept clé

Expectation suite = ensemble de règles. Validation = exécution des règles sur un batch de données. Data Docs = documentation HTML auto-générée du résultat. Checkpoint = orchestration automatique des validations.

🎯Quand l'utiliser ?

Validation de données avant chargement dans un DW
Monitoring de la qualité des données en production
Documentation des règles de qualité comme code

✅ Avantages

+« Tests as Code » : versionnable et intégrable en CI/CD
+Documentation auto-générée des règles (Data Docs)
+Intégration Airflow, dbt, Spark

⚠️ Limites

Courbe d'apprentissage (configuration YAML/Python)
Overhead de calcul sur très grands datasets (GE lit les données)
Version 1.x vs 2.x avec des changements API importants

🛠️ Outils principaux

Great Expectations (Python)
Soda (alternative SaaS)
dbt tests (intégré)
Monte Carlo (observabilité data)
Data QualityTestsGouvernancePythonPipelines

Concepts liés

⚖️

AI Act européen — Réglementation de l'IA

Conformité

🏦

BCBS 239 — Agrégation des données de risque bancaire

Réglementation

⚠️

Biais algorithmique et fairness

Éthique IA

📋

Data Contract

Gouvernance

← Retour à l'encyclopédie