dbt (Data Build Tool)

Framework de transformation de données qui permet d'écrire des transformations SQL versionables, testées et documentées directement dans le Data Warehouse.

💡Explication simple

Avant dbt, les transformations SQL étaient dans des scripts non versionnés, sans tests, sans documentation. dbt apporte les bonnes pratiques du développement logiciel à la data : les transformations sont des modèles .sql dans Git, testés automatiquement (not_null, unique), documentés avec des descriptions, et déployés en CI/CD. C'est de l'ingénierie logicielle appliquée à la transformation de données.

🏗️Exemple concret

Pipeline de reporting financier : 50 modèles dbt organisés en couches (staging intermediate marts). dbt run exécute tous les modèles dans le bon ordre (DAG automatique). dbt test vérifie 200 règles de qualité. dbt docs generate crée une documentation interactive avec lineage visuel. Toute l'équipe travaille dans le même projet Git.

SQLexemple

-- models/marts/sales/fct_orders.sql
{{ config(materialized='incremental', unique_key='order_id') }}

with source as (
    select * from {{ ref('stg_orders') }}
    {% if is_incremental() %}
    where updated_at > (select max(updated_at) from {{ this }})
    {% endif %}
),
enriched as (
    select
        o.order_id,
        o.customer_id,
        o.order_date,
        o.total_amount,
        c.segment as customer_segment
    from source o
    left join {{ ref('dim_customers') }} c using (customer_id)
)
select * from enriched

∑ Concept clé

Modèle dbt = fichier .sql avec SELECT + materialization (table, view, incremental, ephemeral). Ref : {{ ref('stg_orders') }} crée la dépendance et le lineage automatiquement.