IA Générative

vLLM

Définition

Framework d'inférence haute performance pour les LLMs qui optimise le serving via PagedAttention — une gestion de la mémoire KV cache inspirée des systèmes d'exploitation (paging virtuel). Le KV cache (clés et valeurs du mécanisme d'attention stockées pour accélérer la génération auto-régressive) est géré en pages non contiguës, évitant la fragmentation mémoire et permettant le partage entre requêtes (prefix caching, speculative decoding). Résultat : vLLM atteint un débit 24x supérieur à HuggingFace Transformers naïf en servant simultanément de nombreuses requêtes. Il implémente le continuous batching (regroupement dynamique des requêtes en cours de génération) pour maximiser l'utilisation GPU. Compatible avec OpenAI API, supporte Llama, Mistral, GPT-NeoX et la plupart des modèles HuggingFace. Standard de facto pour le serving LLM en production.

Exemples concrets

vllm serve llama-3PagedAttentionContinuous batchingOpenAI-compatible API serving

← Retour au glossaire Termes en “V”

Fiche rapide

CatégorieIA Générative

Exemples4 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Constitutional AI →Context Window →