Data Universe
Newsletter
Accueil/Encyclopédie/Mécanisme d'Attention
👁️Machine LearningAvancéDeep Learning

Mécanisme d'Attention

Composant clé des Transformers qui permet au modèle de pondérer dynamiquement l'importance de chaque élément d'une séquence par rapport aux autres lors du traitement.

💡Explication simple

Quand tu lis « Le chat mange la souris qu'il a chassée », pour comprendre 'qu'il' tu regardes le reste de la phrase et tu décides que 'il' réfère à 'chat' (pas souris). Le mécanisme d'attention fait pareil : pour chaque mot, il calcule un score d'importance avec tous les autres mots de la phrase, et pondère les représentations en conséquence. C'est ce qui permet aux Transformers de comprendre le contexte à longue distance.

🏗️Exemple concret

Traduction automatique : pour traduire le mot 'bank' en français, le mécanisme d'attention regarde tous les autres mots de la phrase. Si 'money', 'account', 'deposit' ont des scores d'attention élevés → 'banque'. Si 'river', 'swim', 'shore' ont des scores élevés → 'rive'. La même architecture gère les deux sens.

∑ Concept clé

Attention(Q,K,V) = softmax(QKᵀ / √d_k) × V. Q=requêtes, K=clés, V=valeurs. Multi-head : concatène h têtes d'attention en parallèle pour capturer différents types de relations.

🎯Quand l'utiliser ?

Toute architecture Transformer (LLM, BERT, Vision Transformer)
Compréhension de séquences avec dépendances longues
Traduction, résumé, question-réponse

✅ Avantages

+Capture les dépendances à longue distance (impossible avec RNN)
+Parallélisable (contrairement aux RNN séquentiels)
+Interprétable : visualiser les poids d'attention révèle ce que le modèle 'regarde'

⚠️ Limites

Coût quadratique O(n²) par rapport à la longueur de séquence
Longues séquences coûteuses en mémoire GPU
Attention locale pour contourner : sliding window, sparse attention

🛠️ Outils principaux

HuggingFace Transformers
PyTorch (torch.nn.MultiheadAttention)
BertViz (visualisation des attentions)
Deep LearningTransformersNLPLLMArchitecture

Concepts liés

🔭

ACP / PCA (Analyse en Composantes Principales)

Apprentissage non supervisé

🤖

Agent IA — Intelligence artificielle autonome

IA Générative

😊

Analyse de sentiment (NLP)

NLP

🌳

Arbre de décision

Apprentissage supervisé

← Retour à l'encyclopédie