Algorithme d'optimisation qui minimise itérativement une fonction de coût (loss) en calculant le gradient par rapport aux paramètres du modèle et en les ajustant dans la direction opposée au gradient, proportionnellement au learning rate. C'est le mécanisme fondamental d'entraînement de tous les réseaux de neurones. La variante stochastique (SGD) calcule le gradient sur un mini-batch de données plutôt que sur l'ensemble, ce qui accélère l'entraînement et peut aider à échapper aux minima locaux. L'optimiseur Adam, qui adapte le learning rate par paramètre en tenant compte des gradients passés, est aujourd'hui le standard pour la plupart des tâches deep learning.