Architecture qui applique le mécanisme d'attention des Transformers directement aux images en les découpant en patches (ex: grille 16×16 pixels) traités comme des tokens. Introduit par Google Brain en 2020, ViT démontre que l'attention suffit à atteindre l'état de l'art en vision sans convolutions, à condition d'être pré-entraîné sur suffisamment de données (JFT-300M). Chaque patch est linéairement projeté en un embedding, augmenté d'un embedding positionnel, puis traité par des blocs Transformer standards. L'attention globale permet à ViT de capturer des dépendances long-range que les CNN capturent difficilement. DeiT réduit le besoin en données via la distillation. DINO et DINOv2 (Meta) l'utilisent en self-supervised learning. SAM (Segment Anything Model) de Meta est construit sur un ViT. ViT domine aujourd'hui en vision pour les modèles à grande échelle.