Problème qui affecte les réseaux de neurones profonds lors de la backpropagation : les gradients diminuent exponentiellement en se propageant vers les premières couches, rendant l'apprentissage de ces couches extrêmement lent ou impossible. La cause : dans les réseaux avec activation sigmoid ou tanh, les dérivées sont inférieures à 1. En les multipliant à travers de nombreuses couches via la règle de la chaîne, le gradient tend vers 0. Solutions : activation ReLU (dérivée = 1 pour x > 0, évite la saturation), initialisation des poids adaptée (Xavier/He initialization), batch normalization (normalise les activations entre couches), connexions résiduelles (ResNet — les gradients peuvent 'sauter' les couches via les skip connections). Le problème inverse, l'exploding gradient, est résolu par le gradient clipping.