Qualifie un modèle capable de traiter et comprendre simultanément plusieurs modalités de données : texte, images, audio, vidéo, voire code et données structurées. GPT-4o peut analyser une photo et répondre à des questions sur son contenu, transcrire de l'audio, lire des graphiques. La multimodalité est obtenue en entraînant des encodeurs spécialisés pour chaque modalité (un encodeur vision, un encodeur audio) et en les alignant dans l'espace latent commun du LLM. Les cas d'usage incluent l'analyse de documents scannés, la compréhension de schémas techniques, la génération d'images (diffusion models), et les interfaces conversationnelles vocales.