Quantization

Définition

Technique de compression qui réduit la précision numérique des paramètres d'un modèle (de float32 32 bits vers int8 8 bits, int4 4 bits, voire int2) pour diminuer son empreinte mémoire et accélérer l'inférence, avec une perte de performance généralement minime pour les modèles suffisamment grands. Un modèle LLM de 70 milliards de paramètres en float16 nécessite ~140 Go de VRAM ; en 4 bits, il descend à ~35 Go. La quantization post-training (PTQ) s'applique après l'entraînement sans réentraînement. Des formats comme GGUF permettent de faire tourner des LLMs localement sur CPU, démocratisant l'accès aux modèles open source.

Exemples concrets

GGUF (llama.cpp)AWQGPTQbitsandbytes

← Retour au glossaire Termes en “Q”

Fiche rapide

CatégorieIA Générative

Exemples4 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Constitutional AI →Context Window →