Data Universe
Newsletter
AccueilOutilsDataHub
DataHub logo

DataHub

Data Governance

Le catalogue de données open source de LinkedIn pour la gouvernance des métadonnées

Tarif

Open source gratuit / Acryl Data Cloud sur devis

Open sourceFree tierAvancé

DataHub est le catalogue de données open source créé par LinkedIn, désormais maintenu par la communauté sous l'égide d'Acryl Data. Il permet de découvrir, comprendre et gouverner les données d'une organisation : lineage automatique, propriétaires, tags, glossaire métier, qualité des données. Alternative open source à Collibra et Alation, très adopté dans les grandes organisations tech.

Catalogue de données (datasets, dashboards, pipelines)
Lineage automatique (dbt, Airflow, Spark, SQL parsers)
Tags et propriétaires
Glossaire métier
Data Contracts
Assertions qualité
Intégration Slack, Jira
API GraphQL et REST
1

Catalogage et découverte des actifs data

DataHub indexe automatiquement les métadonnées de centaines de sources (bases de données, datalakes, dashboards BI, pipelines) permettant aux équipes de trouver et comprendre les datasets disponibles dans l'organisation.

2

Lignage de données end-to-end

DataHub trace le lignage des données depuis les sources brutes jusqu'aux tableaux de bord finaux, permettant d'évaluer l'impact d'un changement de schéma et d'identifier rapidement la cause d'une anomalie dans un rapport.

3

Gouvernance et gestion des propriétaires de données

DataHub associe des propriétaires, des tags, des glossaires métier et des politiques d'accès à chaque actif de données, matérialisant la gouvernance data dans un outil centralisé consultable par tous.

4

Observabilité et qualité des données

DataHub intègre des métriques de qualité et des profils statistiques de données directement dans les fiches de chaque dataset, permettant aux utilisateurs d'évaluer la fiabilité d'un actif avant de l'utiliser.

✓ Points forts

+Gratuit et open source
+Lineage automatique avec dbt, Airflow, Spark
+Très complet en fonctionnalités pour un outil open source
+Communauté active (ex-LinkedIn)
+API très complète pour l'automatisation

✗ Limites

Installation et configuration complexes (microservices Kafka, Elasticsearch, MySQL)
Courbe d'apprentissage élevée pour l'opérer
Support limité sur la version open source
Interface moins ergonomique qu'Atlan ou Collibra

✓ Fait pour vous si…

Grandes organisations tech voulant un catalogue open source avec lineage automatique. Équipes avec des compétences infra pour l'opérer.

✗ Pas fait pour vous si…

Petites équipes sans ressources ops. Organisations cherchant un outil clé en main (Collibra ou Atlan plus adaptés).

DataHub Documentation

Documentation

DataHub Project

Gratuit

DataHub Quickstart & Tutorials

Formation officielle

DataHub Project

Gratuit

Data Governance with DataHub

MOOC

Udemy

~15€
open-sourcedata-cataloggouvernancelineagemetadata