Soda Core est un framework de qualité des données open source qui permet de définir des checks YAML (SodaCL) sur n'importe quelle source SQL. Plus simple à configurer que Great Expectations, il s'intègre nativement avec Airflow et dbt. Soda Cloud propose un dashboard de monitoring de la qualité des données avec historique et alertes.
Contrôle qualité automatisé dans les pipelines dbt
Soda Core s'intègre dans les pipelines dbt pour valider automatiquement après chaque transformation que les données respectent des règles métier (pas de valeurs nulles, plages valides, unicité) avant de les exposer aux utilisateurs.
Définition de SLA de qualité en langage déclaratif
Soda Core permet de définir des checks de qualité en YAML lisible par les équipes métier (SodaCL), remplaçant des scripts de validation ad hoc par un langage standardisé versionnable dans Git.
Détection d'anomalies et alertes de régression
Soda Core surveille en continu des métriques statistiques (moyennes, quantiles, distributions) et déclenche des alertes quand les valeurs s'écartent significativement des valeurs historiques, signalant des problèmes en amont.
Audit de conformité réglementaire des données
Les équipes de gouvernance utilisent Soda Core pour vérifier périodiquement que les datasets sensibles respectent les règles RGPD (absence de PII non-masquées) et les exigences réglementaires (formats, complétude) avec des rapports exportables.
✓ Points forts
✗ Limites
✓ Fait pour vous si…
Équipes dbt cherchant à ajouter des checks de qualité de données dans leur pipeline. Alternative à Great Expectations plus simple à démarrer.
✗ Pas fait pour vous si…
Besoins de règles très complexes sur des DataFrames Pandas/Spark (Great Expectations plus adapté).
Soda Documentation officielle
DocumentationSoda
Soda Core Quickstart
Formation officielleSoda
Data Quality with Soda
MOOCdbt Community