Data Universe
Newsletter
GlossaireAAttention Mechanism
Deep Learning

Attention Mechanism

Définition

Mécanisme qui permet à un modèle de pondérer dynamiquement l'importance de différentes parties de l'input lors du traitement, en calculant un score d'attention entre chaque paire de positions. Dans le self-attention des Transformers, chaque token génère trois vecteurs (Query, Key, Value) : le score d'attention entre deux tokens est le produit scalaire de leur Query et Key (normalisé par softmax), et la représentation finale est une somme pondérée des Values. Le multi-head attention applique ce mécanisme en parallèle dans plusieurs sous-espaces, capturant différents types de relations. L'attention cross entre l'encoder et le decoder permet au modèle de focaliser sur les parties pertinentes de la séquence source lors de la génération.

Exemples concrets

Self-attentionMulti-head attentionCross-attention
← Retour au glossaireTermes en “A

Fiche rapide

CatégorieDeep Learning
Exemples3 outils / technologies