Synthetic Data

Définition

Données générées algorithmiquement pour imiter les propriétés statistiques, les distributions et les structures des données réelles, sans contenir de vraies informations personnelles. Les GANs (Generative Adversarial Networks) apprennent la distribution des données réelles et génèrent des échantillons indiscernables ; CTGAN est spécialisé pour les données tabulaires. Les LLMs peuvent générer des données synthétiques textuelles de haute qualité. Les cas d'usage incluent l'augmentation de datasets (quand les données étiquetées sont rares ou coûteuses), le test des pipelines en environnement non-production, la simulation de scénarios rares (fraude, pannes) pour l'entraînement, et le partage de données sans violation de la confidentialité.

Exemples concrets

CTGANFakerGretel.aiMostly.ai

← Retour au glossaire Termes en “S”

Fiche rapide

CatégorieMachine Learning

Exemples4 outils / technologies

Autres termes en Machine Learning

Anomaly Detection →AutoML →Bagging (Bootstrap Aggregating) →Bias-Variance Tradeoff →Class Imbalance →