🏗️Exemple concret
Entraînement d'un réseau de neurones pour la reconnaissance d'images : à chaque batch de 32 images, on calcule l'erreur, puis le gradient (dérivée partielle de l'erreur par rapport à chaque poids). On ajuste les 50 millions de poids d'un petit pas (learning rate = 0.001). Après 100 000 étapes, l'erreur a convergé.
∑ Concept clé
θ_t+1 = θ_t - α × ∇L(θ_t), où α est le learning rate et ∇L le gradient de la fonction de perte
🎯Quand l'utiliser ?
✓Entraînement de tous les modèles paramétriques (réseaux de neurones, régression)
✓Optimisation de fonctions différentiables
✓Au cÅ“ur de tous les algorithmes ML modernes
✅ Avantages
+Converge vers un minimum local (global si la fonction est convexe)
+Scalable à de très grands datasets (SGD, mini-batch)
+Base de toutes les variantes modernes (Adam, RMSProp)
⚠️ Limites
−Peut rester bloqué dans des minima locaux
−Sensible au learning rate (trop grand = divergence, trop petit = lent)
−SGD peut osciller autour du minimum
🛠️ Outils principaux
TensorFlow/Keras (optimizers)
PyTorch (torch.optim)
Scikit-learn (SGDClassifier)
MLOptimisationDeep LearningFondamentaux