Technique de compression qui réduit la précision numérique des paramètres d'un modèle (de float32 32 bits vers int8 8 bits, int4 4 bits, voire int2) pour diminuer son empreinte mémoire et accélérer l'inférence, avec une perte de performance généralement minime pour les modèles suffisamment grands. Un modèle LLM de 70 milliards de paramètres en float16 nécessite ~140 Go de VRAM ; en 4 bits, il descend à ~35 Go. La quantization post-training (PTQ) s'applique après l'entraînement sans réentraînement. Des formats comme GGUF permettent de faire tourner des LLMs localement sur CPU, démocratisant l'accès aux modèles open source.