Data Universe
Newsletter
GlossaireRReinforcement Learning
Machine Learning

Reinforcement Learning

Définition

Paradigme d'apprentissage où un agent apprend à prendre des décisions séquentielles en interagissant avec un environnement : il reçoit une récompense (positive ou négative) selon ses actions et cherche à maximiser la récompense cumulée sur le long terme. Contrairement au supervisé, il n'y a pas d'exemples corrects fournis — l'agent explore et exploite par essais/erreurs. Le RL est utilisé en robotique, dans les jeux (AlphaGo a battu les meilleurs joueurs mondiaux de Go), l'optimisation de systèmes et — plus récemment — l'alignement des LLMs (RLHF). Sa principale difficulté est la définition d'une fonction de récompense pertinente et la stabilité de l'entraînement.

Exemples concrets

AlphaGoRLHF pour les LLMsOptimisation de trading
← Retour au glossaireTermes en “R

Fiche rapide

CatégorieMachine Learning
Exemples3 outils / technologies