Framework d'inférence haute performance pour les LLMs qui optimise le serving via PagedAttention — une gestion de la mémoire KV cache inspirée des systèmes d'exploitation (paging virtuel). Le KV cache (clés et valeurs du mécanisme d'attention stockées pour accélérer la génération auto-régressive) est géré en pages non contiguës, évitant la fragmentation mémoire et permettant le partage entre requêtes (prefix caching, speculative decoding). Résultat : vLLM atteint un débit 24x supérieur à HuggingFace Transformers naïf en servant simultanément de nombreuses requêtes. Il implémente le continuous batching (regroupement dynamique des requêtes en cours de génération) pour maximiser l'utilisation GPU. Compatible avec OpenAI API, supporte Llama, Mistral, GPT-NeoX et la plupart des modèles HuggingFace. Standard de facto pour le serving LLM en production.