Mécanisme qui permet à un modèle de pondérer dynamiquement l'importance de différentes parties de l'input lors du traitement, en calculant un score d'attention entre chaque paire de positions. Dans le self-attention des Transformers, chaque token génère trois vecteurs (Query, Key, Value) : le score d'attention entre deux tokens est le produit scalaire de leur Query et Key (normalisé par softmax), et la représentation finale est une somme pondérée des Values. Le multi-head attention applique ce mécanisme en parallèle dans plusieurs sous-espaces, capturant différents types de relations. L'attention cross entre l'encoder et le decoder permet au modèle de focaliser sur les parties pertinentes de la séquence source lors de la génération.