Technique de compression de modèle dans laquelle un modèle léger (student) est entraîné à reproduire les sorties d'un modèle lourd pré-entraîné (teacher) plutôt que les labels durs. Le student n'apprend pas seulement 'chat vs. chien' (label dur) mais la distribution de probabilité du teacher ('85% chat, 10% chien, 5% lynx'). Ces 'soft labels' contiennent plus d'information que les labels durs — ils encodent la structure de similarité entre classes apprise par le teacher. La température T dans le softmax contrôle la douceur des distributions. DistilBERT (66% de la taille de BERT, 97% de ses performances) et TinyBERT ont été créés par distillation. La distillation est la méthode dominante pour produire des modèles de production légers, rapides et déployables sur edge.