Reinforcement Learning (Apprentissage par renforcement)

Paradigme d'apprentissage où un agent apprend en interagissant avec un environnement, en recevant des récompenses (ou pénalités) pour ses actions, sans données labellisées.

💡Explication simple

Imagine apprendre à conduire : tu fais des erreurs, tu reçois des feedbacks (coup de klaxon = pénalité, arriver à destination = récompense), et tu ajustes ton comportement. Le RL, c'est ça : un agent qui explore, reçoit des signaux de récompense de l'environnement, et apprend la politique optimale par essais-erreurs. ChatGPT utilise RLHF (RL from Human Feedback) pour apprendre à donner des réponses appréciées par les humains.

🏗️Exemple concret

Trading algorithmique : l'agent observe l'état du marché (prix, volumes, indicateurs), prend une action (acheter, vendre, ne rien faire), reçoit une récompense (profit/perte). Après des millions de simulations sur données historiques (backtesting), l'agent apprend une stratégie de trading. DeepMind AlphaGo utilise RL pour battre les champions mondiaux au jeu de Go.

∑ Concept clé

Q-Learning : Q(s,a) = r + γ max_a' Q(s', a'). Policy Gradient : !θ J(θ) = E[!θ log Ϭ_θ(a|s) R]. Deep RL : approximation de Q ou Ϭ par un réseau de neurones.