Architecture de réseau de neurones introduite dans le papier « Attention is All You Need » (Vaswani et al., 2017) qui a révolutionné le NLP et le deep learning en général. Son innovation centrale est le mécanisme de self-attention, qui permet à chaque token de la séquence de « regarder » tous les autres tokens simultanément pour construire une représentation contextuelle, contrairement aux RNNs qui traitaient les séquences de façon séquentielle. Cette parallélisation totale permet l'entraînement sur des datasets massifs. Les Transformers sont désormais la base de tous les LLMs (GPT, BERT, Claude) et s'étendent à la vision (Vision Transformer), l'audio et la biologie (AlphaFold).