Guardrails (LLM)

Définition

Système de contraintes et de filtres qui encadrent le comportement d'un LLM en production pour éviter les sorties indésirables (contenus nuisibles, informations confidentielles, hallucinations, biais). Deux niveaux : input guardrails (filtrage des prompts entrants — détection de jailbreak, injection de prompt, contenu offensant) et output guardrails (filtrage des réponses générées — détection de PII, vérification factuelle, conformité format). Les guardrails peuvent être basés sur des règles (regex, listes noires), sur des classifieurs ML spécialisés, ou sur un second LLM juge. NeMo Guardrails (NVIDIA), Llama Guard (Meta) et Guardrails AI sont des frameworks dédiés. L'implémentation des guardrails ajoute de la latence — il faut trouver le bon équilibre entre sécurité et expérience utilisateur.

Exemples concrets

NeMo Guardrails (NVIDIA)Llama Guard (Meta)Guardrails AI frameworkPII redaction in output

← Retour au glossaire Termes en “G”

Fiche rapide

CatégorieIA Générative

Exemples4 outils / technologies

Autres termes en IA Générative

Agent IA →Alignment (IA) →Chain of Thought (CoT) →Constitutional AI →Context Window →