Architecture de deep learning conçue pour les données spatiales (images, vidéos, sons). Au lieu de connecter chaque neurone à toute l'entrée (trop coûteux pour des images haute résolution), les CNNs utilisent des filtres convolutifs locaux qui détectent des patterns spatiaux (bords, textures, formes) indépendamment de leur position dans l'image (invariance par translation). Les couches de pooling réduisent progressivement la dimension spatiale et augmentent l'abstraction. Les architectures profondes (ResNet, EfficientNet) empilent des dizaines de couches convolutives pour reconnaître des objets complexes à partir de features simples. Ils restent la référence pour la vision par ordinateur.