Data Universe
Newsletter
GlossaireDDVC (Data Version Control)
MLOps

DVC (Data Version Control)

Définition

Outil open source de versioning de données et d'expériences ML qui étend Git pour gérer les datasets et modèles volumineux. DVC stocke les métadonnées de versioning dans Git (fichiers .dvc légers) et les données réelles dans des remotes externes (S3, GCS, Azure Blob, HDFS). Cela permet de lier chaque version du code à sa version de données correspondante — reproductibilité totale des expériences. DVC gère aussi les pipelines ML (stages avec dépendances, caching automatique des stages non modifiés) et les expériences (dvc exp run, comparaison de métriques entre runs). Fonctionne avec n'importe quel langage ou framework. Alternative aux solutions propriétaires (MLflow Artifacts, Neptune). Le versioning des données résout un problème critique en ML : reproduire un résultat nécessite le même code ET les mêmes données.

Exemples concrets

dvc push/pull S3dvc repro pipelinedvc exp runGit + DVC pour reproductibilité ML
← Retour au glossaireTermes en “D

Fiche rapide

CatégorieMLOps
Exemples4 outils / technologies