Token / Tokenisation

Définition

Unité atomique de traitement d'un LLM, résultat du découpage du texte en sous-unités par un tokenizer. Un token correspond approximativement à 3/4 d'un mot en anglais (1 token = ~4 caractères), mais peut varier selon la langue : les langues à morphologie riche (finnois, arabe, japonais) ou le code sont souvent tokenisés moins efficacement. Le tokenizer BPE (Byte-Pair Encoding) est le standard : il apprend les paires de caractères les plus fréquentes dans le corpus d'entraînement et les fusionne itérativement. Comprendre la tokenisation est essentiel pour estimer les coûts d'API (facturation au token), construire des prompts efficaces et diagnostiquer des comportements inattendus.

Exemples concrets

Tiktoken (OpenAI)SentencePieceBPE (Byte-Pair Encoding)

← Retour au glossaire Termes en “T”

Fiche rapide

CatégorieIA Générative

Exemples3 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Constitutional AI →Context Window →