Mécanisme d'Attention

Composant clé des Transformers qui permet au modèle de pondérer dynamiquement l'importance de chaque élément d'une séquence par rapport aux autres lors du traitement.

💡Explication simple

Quand tu lis « Le chat mange la souris qu'il a chassée », pour comprendre 'qu'il' tu regardes le reste de la phrase et tu décides que 'il' réfère à 'chat' (pas souris). Le mécanisme d'attention fait pareil : pour chaque mot, il calcule un score d'importance avec tous les autres mots de la phrase, et pondère les représentations en conséquence. C'est ce qui permet aux Transformers de comprendre le contexte à longue distance.

🏗️Exemple concret

Traduction automatique : pour traduire le mot 'bank' en français, le mécanisme d'attention regarde tous les autres mots de la phrase. Si 'money', 'account', 'deposit' ont des scores d'attention élevés 'banque'. Si 'river', 'swim', 'shore' ont des scores élevés 'rive'. La même architecture gère les deux sens.

∑ Concept clé

Attention(Q,K,V) = softmax(QKᵬ / d_k) V. Q=requêtes, K=clés, V=valeurs. Multi-head : concatène h têtes d'attention en parallèle pour capturer différents types de relations.