Vanishing Gradient

Définition

Problème qui affecte les réseaux de neurones profonds lors de la backpropagation : les gradients diminuent exponentiellement en se propageant vers les premières couches, rendant l'apprentissage de ces couches extrêmement lent ou impossible. La cause : dans les réseaux avec activation sigmoid ou tanh, les dérivées sont inférieures à 1. En les multipliant à travers de nombreuses couches via la règle de la chaîne, le gradient tend vers 0. Solutions : activation ReLU (dérivée = 1 pour x > 0, évite la saturation), initialisation des poids adaptée (Xavier/He initialization), batch normalization (normalise les activations entre couches), connexions résiduelles (ResNet — les gradients peuvent 'sauter' les couches via les skip connections). Le problème inverse, l'exploding gradient, est résolu par le gradient clipping.

Exemples concrets

ResNet skip connectionsLSTM gates (solution pour RNN)Batch NormalizationReLU vs sigmoid profondeur

← Retour au glossaire Termes en “V”

Fiche rapide

CatégorieDeep Learning

Exemples4 outils / technologies

Autres termes en Deep Learning

Attention Mechanism →Backpropagation →BERT →CNN (Réseau de Neurones Convolutif) →Computer Vision →