Data Universe
Newsletter
GlossaireGGuardrails (LLM)
IA Générative

Guardrails (LLM)

Définition

Système de contraintes et de filtres qui encadrent le comportement d'un LLM en production pour éviter les sorties indésirables (contenus nuisibles, informations confidentielles, hallucinations, biais). Deux niveaux : input guardrails (filtrage des prompts entrants — détection de jailbreak, injection de prompt, contenu offensant) et output guardrails (filtrage des réponses générées — détection de PII, vérification factuelle, conformité format). Les guardrails peuvent être basés sur des règles (regex, listes noires), sur des classifieurs ML spécialisés, ou sur un second LLM juge. NeMo Guardrails (NVIDIA), Llama Guard (Meta) et Guardrails AI sont des frameworks dédiés. L'implémentation des guardrails ajoute de la latence — il faut trouver le bon équilibre entre sécurité et expérience utilisateur.

Exemples concrets

NeMo Guardrails (NVIDIA)Llama Guard (Meta)Guardrails AI frameworkPII redaction in output
← Retour au glossaireTermes en “G

Fiche rapide

CatégorieIA Générative
Exemples4 outils / technologies