Reinforcement Learning

Définition

Paradigme d'apprentissage où un agent apprend à prendre des décisions séquentielles en interagissant avec un environnement : il reçoit une récompense (positive ou négative) selon ses actions et cherche à maximiser la récompense cumulée sur le long terme. Contrairement au supervisé, il n'y a pas d'exemples corrects fournis — l'agent explore et exploite par essais/erreurs. Le RL est utilisé en robotique, dans les jeux (AlphaGo a battu les meilleurs joueurs mondiaux de Go), l'optimisation de systèmes et — plus récemment — l'alignement des LLMs (RLHF). Sa principale difficulté est la définition d'une fonction de récompense pertinente et la stabilité de l'entraînement.

Exemples concrets

AlphaGoRLHF pour les LLMsOptimisation de trading

← Retour au glossaire Termes en “R”

Fiche rapide

CatégorieMachine Learning

Exemples3 outils / technologies

Autres termes en Machine Learning

Anomaly Detection →AutoML →Bagging (Bootstrap Aggregating) →Bias-Variance Tradeoff →Class Imbalance →