DataHub est le catalogue de données open source créé par LinkedIn, désormais maintenu par la communauté sous l'égide d'Acryl Data. Il permet de découvrir, comprendre et gouverner les données d'une organisation : lineage automatique, propriétaires, tags, glossaire métier, qualité des données. Alternative open source à Collibra et Alation, très adopté dans les grandes organisations tech.
Catalogage et découverte des actifs data
DataHub indexe automatiquement les métadonnées de centaines de sources (bases de données, datalakes, dashboards BI, pipelines) permettant aux équipes de trouver et comprendre les datasets disponibles dans l'organisation.
Lignage de données end-to-end
DataHub trace le lignage des données depuis les sources brutes jusqu'aux tableaux de bord finaux, permettant d'évaluer l'impact d'un changement de schéma et d'identifier rapidement la cause d'une anomalie dans un rapport.
Gouvernance et gestion des propriétaires de données
DataHub associe des propriétaires, des tags, des glossaires métier et des politiques d'accès à chaque actif de données, matérialisant la gouvernance data dans un outil centralisé consultable par tous.
Observabilité et qualité des données
DataHub intègre des métriques de qualité et des profils statistiques de données directement dans les fiches de chaque dataset, permettant aux utilisateurs d'évaluer la fiabilité d'un actif avant de l'utiliser.
✓ Points forts
✗ Limites
✓ Fait pour vous si…
Grandes organisations tech voulant un catalogue open source avec lineage automatique. Équipes avec des compétences infra pour l'opérer.
✗ Pas fait pour vous si…
Petites équipes sans ressources ops. Organisations cherchant un outil clé en main (Collibra ou Atlan plus adaptés).
DataHub Documentation
DocumentationDataHub Project
DataHub Quickstart & Tutorials
Formation officielleDataHub Project
Data Governance with DataHub
MOOCUdemy