Transformer

Définition

Architecture de réseau de neurones introduite dans le papier « Attention is All You Need » (Vaswani et al., 2017) qui a révolutionné le NLP et le deep learning en général. Son innovation centrale est le mécanisme de self-attention, qui permet à chaque token de la séquence de « regarder » tous les autres tokens simultanément pour construire une représentation contextuelle, contrairement aux RNNs qui traitaient les séquences de façon séquentielle. Cette parallélisation totale permet l'entraînement sur des datasets massifs. Les Transformers sont désormais la base de tous les LLMs (GPT, BERT, Claude) et s'étendent à la vision (Vision Transformer), l'audio et la biologie (AlphaFold).

Exemples concrets

BERTGPT-4T5Vision Transformer (ViT)

← Retour au glossaire Termes en “T”

Fiche rapide

CatégorieDeep Learning

Exemples4 outils / technologies

Autres termes en Deep Learning

Attention Mechanism →Backpropagation →BERT →CNN (Réseau de Neurones Convolutif) →Computer Vision →