Algorithme fondamental d'entraînement des réseaux de neurones qui calcule efficacement le gradient de la fonction de perte par rapport à chaque poids du réseau en appliquant la règle de la chaîne de dérivation. En forward pass, les données traversent le réseau couche par couche jusqu'à produire une prédiction et calculer la perte. En backward pass, le gradient de la perte est propagé en sens inverse depuis la couche de sortie vers la couche d'entrée, chaque couche calculant sa contribution au gradient via la règle de la chaîne. Ces gradients sont ensuite utilisés par l'optimiseur (SGD, Adam) pour mettre à jour les poids. Sans backpropagation (généralisée par Rumelhart, Hinton et Williams en 1986), l'entraînement de réseaux profonds serait computationnellement impossible. Les frameworks modernes (PyTorch, JAX) implémentent la différentiation automatique qui généralise ce principe.