Unité atomique de traitement d'un LLM, résultat du découpage du texte en sous-unités par un tokenizer. Un token correspond approximativement à 3/4 d'un mot en anglais (1 token = ~4 caractères), mais peut varier selon la langue : les langues à morphologie riche (finnois, arabe, japonais) ou le code sont souvent tokenisés moins efficacement. Le tokenizer BPE (Byte-Pair Encoding) est le standard : il apprend les paires de caractères les plus fréquentes dans le corpus d'entraînement et les fusionne itérativement. Comprendre la tokenisation est essentiel pour estimer les coûts d'API (facturation au token), construire des prompts efficaces et diagnostiquer des comportements inattendus.