Infrastructure qui expose les prédictions d'un modèle ML entraîné via une API (REST, gRPC) pour être consommées par des applications. Deux modes principaux : Online serving (prédictions synchrones en temps réel — ex: recommendation à l'affichage d'une page, scoring de crédit) et Batch serving (prédictions asynchrones sur un grand dataset — ex: scoring nocturne de tous les clients). Les enjeux du serving production : latence (P95 < 100ms pour l'online), throughput (requêtes/seconde), scalabilité auto, versioning des modèles, A/B testing, et monitoring des performances. Triton Inference Server (NVIDIA) et TorchServe sont des serveurs dédiés multi-modèles. Seldon, KServe (ex-KFServing) et BentoML gèrent le cycle de vie complet en Kubernetes. Pour les LLMs, vLLM et TGI (HuggingFace) sont les références.