Multimodal

Définition

Qualifie un modèle capable de traiter et comprendre simultanément plusieurs modalités de données : texte, images, audio, vidéo, voire code et données structurées. GPT-4o peut analyser une photo et répondre à des questions sur son contenu, transcrire de l'audio, lire des graphiques. La multimodalité est obtenue en entraînant des encodeurs spécialisés pour chaque modalité (un encodeur vision, un encodeur audio) et en les alignant dans l'espace latent commun du LLM. Les cas d'usage incluent l'analyse de documents scannés, la compréhension de schémas techniques, la génération d'images (diffusion models), et les interfaces conversationnelles vocales.

Exemples concrets

GPT-4o (texte + image + audio)Gemini 1.5Claude 3 Vision

← Retour au glossaire Termes en “M”

Fiche rapide

CatégorieIA Générative

Exemples3 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Constitutional AI →Context Window →