Data Universe
Newsletter
GlossaireDData Profiling
Qualité

Data Profiling

Définition

Processus d'examen systématique d'un dataset pour comprendre sa structure, son contenu et sa qualité avant utilisation. Un profiling complet couvre : les statistiques descriptives par colonne (min, max, moyenne, médiane, percentiles, écart-type), les distributions de valeurs (top N valeurs, histogrammes), le taux de valeurs manquantes (NULL), le taux de valeurs uniques (cardinalité), les doublons, la conformité aux formats attendus (emails, dates, codes postaux), et les corrélations entre colonnes. Le profiling est la première étape de tout projet data — il révèle les problèmes de qualité avant qu'ils n'impactent les modèles ou les dashboards. Outils : Great Expectations (profiling + tests), pandas-profiling/ydata-profiling (rapport HTML interactif), dbt-project-evaluator, et les fonctions natives des data catalogs (Alation, Collibra).

Exemples concrets

ydata-profiling (ex pandas-profiling)Great Expectations data profilerdbt describeCatalogue Collibra auto-profiling
← Retour au glossaireTermes en “D

Fiche rapide

CatégorieQualité
Exemples4 outils / technologies