Knowledge Distillation

Définition

Technique de compression de modèle dans laquelle un modèle léger (student) est entraîné à reproduire les sorties d'un modèle lourd pré-entraîné (teacher) plutôt que les labels durs. Le student n'apprend pas seulement 'chat vs. chien' (label dur) mais la distribution de probabilité du teacher ('85% chat, 10% chien, 5% lynx'). Ces 'soft labels' contiennent plus d'information que les labels durs — ils encodent la structure de similarité entre classes apprise par le teacher. La température T dans le softmax contrôle la douceur des distributions. DistilBERT (66% de la taille de BERT, 97% de ses performances) et TinyBERT ont été créés par distillation. La distillation est la méthode dominante pour produire des modèles de production légers, rapides et déployables sur edge.

Exemples concrets

DistilBERTTinyBERTDistillation Hinton 2015On-device ML via distillation

← Retour au glossaire Termes en “K”

Fiche rapide

CatégorieDeep Learning

Exemples4 outils / technologies

Autres termes en Deep Learning

Attention Mechanism →Backpropagation →BERT →CNN (Réseau de Neurones Convolutif) →Computer Vision →