Flash Attention

Définition

Algorithme d'attention exact et IO-aware qui réduit drastiquement la consommation mémoire et accélère le calcul de l'attention dans les Transformers en réorganisant les opérations pour minimiser les transfers entre GPU HBM (mémoire principale) et SRAM (registres rapides). L'attention standard est O(n²) en mémoire — elle matérialise la matrice d'attention complète. Flash Attention calcule l'attention par blocs (tiling), gardant les données dans la SRAM rapide et évitant les lectures/écritures coûteuses vers la HBM. Flash Attention 2 et 3 apportent des optimisations supplémentaires pour les GPU Ampere/Hopper. En pratique, Flash Attention accélère l'entraînement de 2 à 4x et permet d'entraîner avec des séquences 5 à 10x plus longues à mémoire GPU égale. Intégré nativement dans PyTorch 2.0+ via scaled_dot_product_attention.

Exemples concrets

PyTorch scaled_dot_product_attentionFlash Attention 2 (Tri Dao)Llama 2 entraînementContexte 100K tokens rendu possible

← Retour au glossaire Termes en “F”

Fiche rapide

CatégorieIA Générative

Exemples4 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Constitutional AI →Context Window →