Descente de gradient

Algorithme d'optimisation fondamental qui ajuste itérativement les paramètres d'un modèle pour minimiser l'erreur, en suivant la pente de la fonction de perte.

💡Explication simple

Imagine que tu es sur une montagne dans le brouillard et tu veux descendre dans la vallée (minimiser l'erreur). ì chaque pas, tu tâtes le sol autour de toi et tu avances dans la direction où la pente descend le plus. C'est la descente de gradient : à chaque itération (epoch), on calcule dans quelle direction modifier les paramètres pour réduire l'erreur. Le 'learning rate' contrôle la taille de chaque pas.

🏗️Exemple concret

Entraînement d'un réseau de neurones pour la reconnaissance d'images : à chaque batch de 32 images, on calcule l'erreur, puis le gradient (dérivée partielle de l'erreur par rapport à chaque poids). On ajuste les 50 millions de poids d'un petit pas (learning rate = 0.001). Après 100 000 étapes, l'erreur a convergé.

∑ Concept clé

θ_t+1 = θ_t - α !L(θ_t), où α est le learning rate et !L le gradient de la fonction de perte