Data Universe
Newsletter
Accueil/Encyclopédie/Data Lineage (Lignage de données)
🔗Gouvernance & QualitéIntermédiaireGouvernance

Data Lineage (Lignage de données)

La capacité à tracer le parcours d'une donnée de sa source jusqu'à son utilisation finale, en passant par toutes les transformations intermédiaires.

💡Explication simple

Si un reporting financier affiche un chiffre faux, tu veux savoir d'où vient l'erreur. Le data lineage te montre : cette colonne vient de la table A, qui a été transformée par le job ETL B, qui lit les données du système source C. Tu remontes le fil comme un enquêteur, sans tâtonnement.

🏗️Exemple concret

Dans une banque, le reporting Pilier 3 (réglementaire) utilise le « Total des expositions ». Le lineage montre : Exposition = Système de gestion des risques (source) → dbt model risk_exposures → Agrégation Synapse → Table PowerBI. Si le chiffre change, on sait exactement quel job a produit le changement.

∑ Concept clé

Lineage = graphe orienté acyclique (DAG) : Nœuds = datasets/tables, Arêtes = transformations (SQL, jobs ETL, modèles dbt)

🎯Quand l'utiliser ?

Audit réglementaire
Débogage d'anomalies dans les données
Analyse d'impact avant de modifier une table source

✅ Avantages

+Réduit le temps de débogage de jours à heures
+Permet l'analyse d'impact (« si je modifie cette table, qu'est-ce que ça casse ? »)
+Obligatoire pour certaines régulations (BCBS 239)

⚠️ Limites

Complexe à maintenir dans des architectures hybrides (ETL + SQL + Python)
Nécessite une instrumentalisation de tous les pipelines
Peut devenir un graphe très complexe sur de grands SI

🛠️ Outils principaux

dbt (lineage automatique)
OpenLineage
Marquez
Collibra
Microsoft Purview
Atlan
GouvernanceAuditData QualityETLdbt

Concepts liés

⚖️

AI Act européen — Réglementation de l'IA

Conformité

🏦

BCBS 239 — Agrégation des données de risque bancaire

Réglementation

⚠️

Biais algorithmique et fairness

Éthique IA

📋

Data Contract

Gouvernance

← Retour à l'encyclopédie