Fonction non linéaire appliquée à la sortie de chaque neurone qui permet aux réseaux de neurones d'apprendre des représentations complexes et non linéaires. Sans activation non linéaire, empiler des couches linéaires ne produirait qu'une transformation linéaire. ReLU (Rectified Linear Unit) : max(0, x) — simple, rapide, résout le vanishing gradient pour les valeurs positives. Leaky ReLU et ELU : variantes qui évitent les neurones 'morts' (toujours à 0). Sigmoid : sortie entre 0 et 1, utilisée pour les classifications binaires en sortie. Tanh : sortie entre -1 et 1, version centrée du sigmoid. Softmax : normalise les sorties en probabilités pour la classification multi-classe. GELU (Gaussian Error Linear Unit) : utilisée dans les Transformers (BERT, GPT) pour ses meilleures propriétés de gradient. Le choix de la fonction d'activation impacte fortement la vitesse de convergence et la performance.