Data Universe
Newsletter
Accueil/Encyclopédie/Data Vault 2.0
🔐Data EngineeringAvancéModélisation data

Data Vault 2.0

Méthodologie de modélisation de Data Warehouse orientée audit, agilité et chargement parallèle, basée sur 3 types de tables : Hubs (entités), Links (relations) et Satellites (attributs).

💡Explication simple

Un schéma en étoile classique est difficile à modifier quand le métier change. Data Vault sépare radicalement les entités (Hubs), leurs relations (Links) et leurs attributs (Satellites). Si le schéma de la table clients change, tu ajoutes un Satellite — le Hub et les Links restent intacts. C'est modulaire, versionnable et auditable : chaque ligne garde la date de chargement et la source.

🏗️Exemple concret

Banque avec 12 systèmes sources : le Hub_Client contient uniquement la clé métier (numéro client) et la date de chargement. Le Satellite_Client_Identite contient les attributs (nom, prénom, adresse), versionnés par date. Quand le CRM change son format d'adresse, seul le Satellite est modifié. Aucun impact sur les Hubs ni les 200 Links existants.

∑ Concept clé

Hub = {hash_key, business_key, load_date, record_source}. Satellite = {hub_hash_key, load_date, end_date, attributes...}. Link = {link_hash_key, hub1_hash_key, hub2_hash_key, load_date}.

🎯Quand l'utiliser ?

Data Warehouses devant absorber de nombreux systèmes sources hétérogènes
Environnements réglementés nécessitant un audit trail complet
Projets agiles où le modèle va évoluer souvent

✅ Avantages

+Chargements parallèles et hautement performants
+Audit trail natif (date, source pour chaque ligne)
+Résistant aux changements de schéma (ajout de Satellites sans impact)

⚠️ Limites

Complexité : 3-5x plus de tables qu'un schéma en étoile
Requêtes plus complexes (nombreuses jointures)
Courbe d'apprentissage importante pour les équipes

🛠️ Outils principaux

dbt (très compatible avec Data Vault via dbtvault)
WhereScape
TimeXtender
Snowflake (performances adaptées)
Data EngineeringModélisationData WarehouseAuditAgilité

Concepts liés

âš¡

Apache Flink — Stream processing temps réel

Streaming

🧊

Apache Iceberg

Lakehouse Architecture

🏗️

Architecture Lakehouse

Architecture

🥇

Architecture Medallion (Bronze / Silver / Gold)

Architecture data

← Retour à l'encyclopédie