Classe de modèles génératifs qui apprennent à inverser un processus de dégradation progressive (diffusion forward : ajouter du bruit gaussien à une image jusqu'à ce qu'elle soit indiscernable du bruit pur) pour générer des données de haute qualité (diffusion backward : débruitage itératif guidé). Le modèle entraîné apprend à prédire et soustraire le bruit à chaque étape du backward process. Stable Diffusion, DALL-E 3 et Midjourney reposent sur des variantes de diffusion (Latent Diffusion Models qui opèrent dans un espace latent compressé plutôt que dans l'espace pixel pour la rapidité). La guidance classifier-free permet de conditionner la génération sur un prompt texte. Les diffusion models surpassent les GANs en qualité et en diversité mais sont plus lents à l'inférence (nécessitent de nombreuses étapes de débruitage). DDPM, DDIM et DPM-Solver optimisent ce tradeoff.