Data Universe
Newsletter
GlossaireMModel Serving
MLOps

Model Serving

Définition

Infrastructure qui expose les prédictions d'un modèle ML entraîné via une API (REST, gRPC) pour être consommées par des applications. Deux modes principaux : Online serving (prédictions synchrones en temps réel — ex: recommendation à l'affichage d'une page, scoring de crédit) et Batch serving (prédictions asynchrones sur un grand dataset — ex: scoring nocturne de tous les clients). Les enjeux du serving production : latence (P95 < 100ms pour l'online), throughput (requêtes/seconde), scalabilité auto, versioning des modèles, A/B testing, et monitoring des performances. Triton Inference Server (NVIDIA) et TorchServe sont des serveurs dédiés multi-modèles. Seldon, KServe (ex-KFServing) et BentoML gèrent le cycle de vie complet en Kubernetes. Pour les LLMs, vLLM et TGI (HuggingFace) sont les références.

Exemples concrets

TorchServeTriton Inference ServerBentoMLKServe sur Kubernetes
← Retour au glossaireTermes en “M

Fiche rapide

CatégorieMLOps
Exemples4 outils / technologies