Vision Transformer (ViT)

Définition

Architecture qui applique le mécanisme d'attention des Transformers directement aux images en les découpant en patches (ex: grille 16×16 pixels) traités comme des tokens. Introduit par Google Brain en 2020, ViT démontre que l'attention suffit à atteindre l'état de l'art en vision sans convolutions, à condition d'être pré-entraîné sur suffisamment de données (JFT-300M). Chaque patch est linéairement projeté en un embedding, augmenté d'un embedding positionnel, puis traité par des blocs Transformer standards. L'attention globale permet à ViT de capturer des dépendances long-range que les CNN capturent difficilement. DeiT réduit le besoin en données via la distillation. DINO et DINOv2 (Meta) l'utilisent en self-supervised learning. SAM (Segment Anything Model) de Meta est construit sur un ViT. ViT domine aujourd'hui en vision pour les modèles à grande échelle.

Exemples concrets

ViT-B/16, ViT-L/32DINOv2 (Meta)SAM Segment AnythingSwin Transformer (fenêtres hiérarchiques)

← Retour au glossaire Termes en “V”

Fiche rapide

CatégorieDeep Learning

Exemples4 outils / technologies

Autres termes en Deep Learning

Attention Mechanism →Backpropagation →BERT →CNN (Réseau de Neurones Convolutif) →Computer Vision →