Data Universe
Newsletter
GlossaireQQuantization
IA Générative

Quantization

Définition

Technique de compression qui réduit la précision numérique des paramètres d'un modèle (de float32 32 bits vers int8 8 bits, int4 4 bits, voire int2) pour diminuer son empreinte mémoire et accélérer l'inférence, avec une perte de performance généralement minime pour les modèles suffisamment grands. Un modèle LLM de 70 milliards de paramètres en float16 nécessite ~140 Go de VRAM ; en 4 bits, il descend à ~35 Go. La quantization post-training (PTQ) s'applique après l'entraînement sans réentraînement. Des formats comme GGUF permettent de faire tourner des LLMs localement sur CPU, démocratisant l'accès aux modèles open source.

Exemples concrets

GGUF (llama.cpp)AWQGPTQbitsandbytes
← Retour au glossaireTermes en “Q

Fiche rapide

CatégorieIA Générative
Exemples4 outils / technologies