Attention Mechanism

Définition

Mécanisme qui permet à un modèle de pondérer dynamiquement l'importance de différentes parties de l'input lors du traitement, en calculant un score d'attention entre chaque paire de positions. Dans le self-attention des Transformers, chaque token génère trois vecteurs (Query, Key, Value) : le score d'attention entre deux tokens est le produit scalaire de leur Query et Key (normalisé par softmax), et la représentation finale est une somme pondérée des Values. Le multi-head attention applique ce mécanisme en parallèle dans plusieurs sous-espaces, capturant différents types de relations. L'attention cross entre l'encoder et le decoder permet au modèle de focaliser sur les parties pertinentes de la séquence source lors de la génération.

Exemples concrets

Self-attentionMulti-head attentionCross-attention

← Retour au glossaire Termes en “A”

Fiche rapide

CatégorieDeep Learning

Exemples3 outils / technologies

Autres termes en Deep Learning

Backpropagation →BERT →CNN (Réseau de Neurones Convolutif) →Computer Vision →Diffusion Model →