Système de contraintes et de filtres qui encadrent le comportement d'un LLM en production pour éviter les sorties indésirables (contenus nuisibles, informations confidentielles, hallucinations, biais). Deux niveaux : input guardrails (filtrage des prompts entrants — détection de jailbreak, injection de prompt, contenu offensant) et output guardrails (filtrage des réponses générées — détection de PII, vérification factuelle, conformité format). Les guardrails peuvent être basés sur des règles (regex, listes noires), sur des classifieurs ML spécialisés, ou sur un second LLM juge. NeMo Guardrails (NVIDIA), Llama Guard (Meta) et Guardrails AI sont des frameworks dédiés. L'implémentation des guardrails ajoute de la latence — il faut trouver le bon équilibre entre sécurité et expérience utilisateur.