Data Universe
Newsletter
GlossaireSSynthetic Data
Machine Learning

Synthetic Data

Définition

Données générées algorithmiquement pour imiter les propriétés statistiques, les distributions et les structures des données réelles, sans contenir de vraies informations personnelles. Les GANs (Generative Adversarial Networks) apprennent la distribution des données réelles et génèrent des échantillons indiscernables ; CTGAN est spécialisé pour les données tabulaires. Les LLMs peuvent générer des données synthétiques textuelles de haute qualité. Les cas d'usage incluent l'augmentation de datasets (quand les données étiquetées sont rares ou coûteuses), le test des pipelines en environnement non-production, la simulation de scénarios rares (fraude, pannes) pour l'entraînement, et le partage de données sans violation de la confidentialité.

Exemples concrets

CTGANFakerGretel.aiMostly.ai
← Retour au glossaireTermes en “S

Fiche rapide

CatégorieMachine Learning
Exemples4 outils / technologies