LoRA (Low-Rank Adaptation)

Définition

Technique de fine-tuning efficace des LLMs qui réduit le nombre de paramètres entraînables de 99%+ en supposant que les mises à jour des poids pendant l'adaptation peuvent être approchées par des matrices de bas rang. Au lieu de mettre à jour la matrice de poids W (d×k), LoRA injecte deux petites matrices A (d×r) et B (r×k) où r << min(d,k). Seules A et B sont entraînées, W reste gelé. La mise à jour effective est Î”W = A×B. Avec r=8, au lieu d'entraîner 4096×4096 = 16M paramètres, on entraîne 2×4096×8 = 65k paramètres. Cela permet de fine-tuner des LLMs de 7B à 70B paramètres sur un seul GPU grand public. QLoRA combine LoRA avec la quantification 4-bit du modèle de base pour réduire encore la mémoire requise. LoRA est la technique dominante pour l'adaptation de LLMs à des domaines spécifiques.

Exemples concrets

Hugging Face PEFT libraryQLoRA (4-bit + LoRA)Fine-tuning Llama avec LoRAAlpaca LoRA

← Retour au glossaire Termes en “L”

Fiche rapide

CatégorieDeep Learning

Exemples4 outils / technologies

Autres termes en Deep Learning

Attention Mechanism →Backpropagation →BERT →CNN (Réseau de Neurones Convolutif) →Computer Vision →