Data Universe
Newsletter
GlossaireKKnowledge Distillation
Deep Learning

Knowledge Distillation

Définition

Technique de compression de modèle dans laquelle un modèle léger (student) est entraîné à reproduire les sorties d'un modèle lourd pré-entraîné (teacher) plutôt que les labels durs. Le student n'apprend pas seulement 'chat vs. chien' (label dur) mais la distribution de probabilité du teacher ('85% chat, 10% chien, 5% lynx'). Ces 'soft labels' contiennent plus d'information que les labels durs — ils encodent la structure de similarité entre classes apprise par le teacher. La température T dans le softmax contrôle la douceur des distributions. DistilBERT (66% de la taille de BERT, 97% de ses performances) et TinyBERT ont été créés par distillation. La distillation est la méthode dominante pour produire des modèles de production légers, rapides et déployables sur edge.

Exemples concrets

DistilBERTTinyBERTDistillation Hinton 2015On-device ML via distillation
← Retour au glossaireTermes en “K

Fiche rapide

CatégorieDeep Learning
Exemples4 outils / technologies