Data Universe
Newsletter
GlossaireVVanishing Gradient
Deep Learning

Vanishing Gradient

Définition

Problème qui affecte les réseaux de neurones profonds lors de la backpropagation : les gradients diminuent exponentiellement en se propageant vers les premières couches, rendant l'apprentissage de ces couches extrêmement lent ou impossible. La cause : dans les réseaux avec activation sigmoid ou tanh, les dérivées sont inférieures à 1. En les multipliant à travers de nombreuses couches via la règle de la chaîne, le gradient tend vers 0. Solutions : activation ReLU (dérivée = 1 pour x > 0, évite la saturation), initialisation des poids adaptée (Xavier/He initialization), batch normalization (normalise les activations entre couches), connexions résiduelles (ResNet — les gradients peuvent 'sauter' les couches via les skip connections). Le problème inverse, l'exploding gradient, est résolu par le gradient clipping.

Exemples concrets

ResNet skip connectionsLSTM gates (solution pour RNN)Batch NormalizationReLU vs sigmoid profondeur
← Retour au glossaireTermes en “V

Fiche rapide

CatégorieDeep Learning
Exemples4 outils / technologies