Données générées algorithmiquement pour imiter les propriétés statistiques, les distributions et les structures des données réelles, sans contenir de vraies informations personnelles. Les GANs (Generative Adversarial Networks) apprennent la distribution des données réelles et génèrent des échantillons indiscernables ; CTGAN est spécialisé pour les données tabulaires. Les LLMs peuvent générer des données synthétiques textuelles de haute qualité. Les cas d'usage incluent l'augmentation de datasets (quand les données étiquetées sont rares ou coûteuses), le test des pipelines en environnement non-production, la simulation de scénarios rares (fraude, pannes) pour l'entraînement, et le partage de données sans violation de la confidentialité.