Algorithme de classification qui cherche l'hyperplan de séparation optimal entre deux classes en maximisant la marge (distance entre l'hyperplan et les points les plus proches de chaque classe, appelés vecteurs supports). La maximisation de la marge améliore la généralisation sur de nouvelles données. Pour les données non linéairement séparables, le 'kernel trick' projette implicitement les données dans un espace de dimension supérieure où elles deviennent séparables (noyaux RBF, polynomial, sigmoïde). Le paramètre C contrôle le compromis entre une marge large (risque de sous-fit) et le respect des contraintes de classification (risque d'overfit). SVM reste performant sur des datasets de taille moyenne avec des features de haute dimension (NLP, bioinformatique). Sa principale limite est la scalabilité : l'entraînement est O(n²) à O(n³) en nombre d'exemples.