Tout comprendre sur l&#x27;IA — modèles, risques, réglementations

✓Dynamic workflows : résolution de problèmes très large scale dans Claude Code

Claude Opus 4.8

Modèle phare d'Anthropic sorti le 28 mai 2026, 41 jours après Opus 4.7. Introduit les 'dynamic workflows' dans Claude Code pour les tâches à très grande échelle. Score de 61.4 sur l'Artificial Analysis Intelligence Index (+4.1 vs 4.7), le meilleur tous modèles confondus. Vitesse 2,5x via le fast mode, 3x moins cher que sur la génération précédente.

✓69.2% agentic coding, 84% sur Online-Mind2Web / 83.4% computer use global (SoTA toutes catégories)

✓Fast mode : 2.5x plus rapide, 3x moins cher que les versions précédentes

Benchmarks agentiques✓ Officiel

SWE-bench Pro (code autonome)69.2

OSWorld (computer use)83.4

HLE (raisonnement expert)57.9

200K tokens— ~429 pages A4

GEM

Google DeepMind

2026-05

✓Intelligence frontier à vitesse 4x supérieure aux équivalents

Gemini 3.5 Flash

Modèle actuel de référence de Google pour les agents et le code. Offre des performances de niveau frontier à 4x la vitesse des modèles comparables. Contexte 1M tokens, optimisé pour les tâches longues horizon et les pipelines agentiques complexes.

✓1M tokens de contexte nativement

✓Excellent pour les tâches agentiques longue durée et le coding

GPT

OpenAI

2026-04

✓Raisonnement nettement amélioré vs GPT-5.4

GPT-5.5

Dernière version du flagship OpenAI, sortie le 23 avril 2026. Fenêtre contextuelle portée à 400K tokens, raisonnement complexe amélioré. Score de 60.2 sur l'Artificial Analysis Intelligence Index — légèrement en dessous de Claude Opus 4.8 (61.4). Disponible en version standard et frontier.

✓400K tokens de contexte

✓Contrôle autonome d'ordinateur (computer use) intégré

400K tokens— ~857 pages A4

GEM

Google DeepMind

2026-02

✓2x les performances de raisonnement de Gemini 3 Pro

Gemini 3.1 Pro

Sorti le 19 février 2026, Gemini 3.1 Pro double les performances de raisonnement de Gemini 3 Pro. Classé numéro 1 sur 12 des 18 benchmarks suivis à sa sortie, avec 1M tokens de contexte et 65K tokens de sortie maximum. Meilleur modèle Google pour les tâches de raisonnement complexe.

✓#1 sur 12/18 benchmarks à sa sortie (février 2026)

✓65K tokens de sortie maximum — plus long contexte de sortie du marché

CLA

Anthropic

2025-10

✓Latence très faible, idéal pour les applications temps réel

Claude Haiku 4.5

Modèle ultra-rapide et économique de la famille Claude 4.x, sorti en octobre 2025. Représente un bond qualitatif majeur par rapport à Claude 3 Haiku, avec des capacités proches de Claude 3.5 Sonnet pour une fraction du coût. Idéal pour les pipelines haute fréquence.

✓Qualité nettement supérieure à Claude 3 Haiku

✓Coût parmi les plus bas du marché pour la gamme 4.x

MMLU (connaissances)76.8

HumanEval (code)86.3

MATH81.3

200K tokens— ~429 pages A4

CLA

Anthropic

2025-05

✓Rapport performance/coût exceptionnel dans la gamme Claude 4

Claude Sonnet 4.6

Le modèle principal de la famille Claude 4.x, et le modèle qui fait tourner Claude Code. Combine raisonnement hybride (rapide et étendu), très haute performance sur le code et les tâches agentiques, avec un coût nettement inférieur à Opus. Référence du marché pour les applications production.

✓Performance SWE-bench de premier rang pour les tâches de développement

✓Excellent pour les workflows agentiques et l'utilisation d'outils

MMLU (connaissances)85.2

HumanEval (code)93.5

MATH89.4

1M tokens (bêta)— ~2.1k pages A4

✓Rapport qualité/prix excellent (3x moins cher que Large 2)

MIS

Mistral AI

2025-05

HybrideLLM

Mistral Medium 3

Modèle intermédiaire de Mistral positionnée entre Small 3 et Large 2. Optimisé pour les tâches d'entreprise avec un rapport coût/performance compétitif. Déployable en cloud Mistral ou on-premise via la licence commerciale.

✓Disponible en self-hosted pour les entreprises européennes

✓Très fort sur le français et les langues européennes

MMLU (connaissances)86

HumanEval (code)88

MATH74

OpenAI

2025-04

✓Raisonnement mathématique et scientifique de haut niveau

o3

Modèle de raisonnement de pointe d'OpenAI utilisant le chain-of-thought étendu pour résoudre des problèmes complexes. Excelle en mathématiques, sciences et programmation avancée. Note : o3 Deep Research (variante avec recherche web approfondie) a un pricing différent à $10/$40 par M tokens.

✓Excellentes performances sur les benchmarks de codage avancé

✓Chain-of-thought étendu pour problèmes multi-étapes

MMLU (connaissances)91.6

HumanEval (code)81.3

MATH96.7

200K tokens— ~429 pages A4

O4-

OpenAI

2025-04

✓Raisonnement STEM de haute qualité à coût réduit

o4-mini

Successeur de o3-mini (disponible depuis avril 2025), modèle de raisonnement compact et économique. Améliore o3-mini sur la vision, le code et le raisonnement multiétape. Disponible via l'API OpenAI en remplacement de o3-mini.

✓Support vision (analyse d'images)

✓Meilleur que o3-mini sur code et math

MMLU (connaissances)90

HumanEval (code)98.2

MATH97.5

✓10M tokens de contexte (plus grand contexte du marché)

LLA

Llama 4 Scout

Premier modèle de la famille Llama 4 de Meta, avec architecture Mixture of Experts (MoE). 17B paramètres actifs pour 109B au total. Fenêtre contextuelle record de 10 millions de tokens, optimisé pour le déploiement local et cloud.

✓Open source sous licence personnalisée Meta

✓Nativement multimodal (texte + image)

MMLU (connaissances)88

HumanEval (code)88

MATH82

10M tokens— ~21k pages A4

✓Performances proches de GPT-4o en open source

LLA

Llama 4 Maverick

Modèle phare de la famille Llama 4, avec 128 experts MoE et 17B paramètres actifs pour 400B au total. Concurrent direct de GPT-4o et Claude 3.5 Sonnet sur la plupart des benchmarks, avec l'avantage d'être open source.

✓Excellent sur les tâches de code et de raisonnement multimodal

✓Contexte de 1M tokens

MMLU (connaissances)89.5

HumanEval (code)90

MATH85

MIS

Mistral AI

2025-03

✓Open source sous licence Apache 2.0

Mistral Small 3.1

Modèle compact de 24 milliards de paramètres de Mistral AI (version 3.1 de mars 2025), conçu pour les déploiements edge et les applications nécessitant faible latence. Support multimodal (images) et fenêtre de contexte portée à 128K tokens vs 32K pour la version 3.0 initiale.

✓Excellent ratio performance/taille

✓Très rapide en inférence

MMLU (connaissances)81

HumanEval (code)78

GEM

Google DeepMind

2025-03

✓Meilleur modèle au monde sur les benchmarks de raisonnement (Humanity's Last Exam)

Gemini 2.5 Pro

Le modèle phare de Google intégrant un mécanisme de réflexion interne (thinking). Domine les benchmarks de raisonnement et de code en mars 2025, avec une fenêtre contextuelle d'1 million de tokens. Multimodal natif (texte, image, audio, vidéo).

✓Mode thinking : raisonnement pas-à-pas avant de répondre

✓Contexte 1M tokens nativement

MMLU (connaissances)90

HumanEval (code)97

MATH91

GRO

xAI

2025-02

✓Accès temps réel aux données de X (Twitter)

Grok 3

Le modèle phare d'Elon Musk's xAI, entraîné sur 100k GPU H100. Accès exclusif via abonnement Premium+ X (ex-Twitter). Intègre le mode 'Think' pour le raisonnement étendu et l'accès temps réel aux données de X.

✓Mode Think pour le raisonnement étape par étape

✓Très fort sur les maths et la science (revendique top classement)

MMLU (connaissances)91

HumanEval (code)88

MATH93

DEE

DeepSeek

2025-01

✓Raisonnement de niveau o1 en open source

DeepSeek R1

Modèle de raisonnement open source de DeepSeek, concurrent direct de o1 d'OpenAI. Utilise le renforcement pur sans supervised fine-tuning initial pour développer des capacités de raisonnement émergentes. Performances remarquables sur les benchmarks STEM.

✓Entraîné par RL pur, approche innovante

✓Performances MATH et code exceptionnelles

MMLU (connaissances)90.8

HumanEval (code)92.6

MATH97.3

✓Performances comparables à GPT-4o sur de nombreuses tâches

LLA

Llama 3.3 70B

Meilleure version de Llama 3 dans la taille 70B, offrant des performances comparables à des modèles bien plus grands. Librement téléchargeable et déployable on-premise. Référence absolue de l'open source pour son ratio taille/performance.

✓Entièrement open source et déployable localement

✓Très bon support multilingue dont le français

MMLU (connaissances)86

HumanEval (code)88.4

MATH77

DEE

DeepSeek

2024-12

✓Rapport qualité/coût révolutionnaire

DeepSeek V3

Modèle MoE de 671B paramètres (37B actifs) entraîné pour moins de 6 millions de dollars selon DeepSeek, provoquant une onde de choc dans le secteur IA. Performances comparables à GPT-4o et Claude 3.5 Sonnet sur les benchmarks majeurs.

✓Open source avec poids téléchargeables

✓Excellent sur le code et le raisonnement

MMLU (connaissances)88.5

HumanEval (code)89.3

MATH90.2

PHI

Microsoft

2024-12

✓Performances impressionnantes pour sa taille (14B)

Phi-4

Petit modèle de 14 milliards de paramètres de Microsoft qui surpasse des modèles bien plus grands sur les benchmarks quantitatifs. Entraîné principalement sur des données synthétiques de haute qualité. Disponible sur Azure AI Foundry et Hugging Face.

✓Excellente efficacité énergétique

✓Open source sur Hugging Face

MMLU (connaissances)84.8

HumanEval (code)82.6

MATH80.6

16K tokens— ~34 pages A4

✓Cohérence temporelle et physique remarquable

SOR

OpenAI

2024-12

PropriétaireVidéo

Sora

Modèle de génération vidéo d'OpenAI, annoncé en février 2024 et lancé fin 2024. Capable de générer des vidéos jusqu'à 60 secondes en haute définition à partir de prompts textuels ou d'images. Basé sur une architecture diffusion transformer.

✓Durée jusqu'à 60 secondes

✓Résolution 1080p disponible

✓Excellente cohérence des mouvements humains

KLI

Kuaishou

2024-11

PropriétaireVidéo

Kling 1.6

Modèle de génération vidéo de Kuaishou (géant chinois de la vidéo courte), reconnu pour la cohérence physique et la qualité des mouvements humains. Disponible via API ou interface web avec des plans compétitifs.

✓Vidéos jusqu'à 2 minutes

✓Tarification compétitive par rapport à la concurrence occidentale

✓Entièrement open source et déployable localement

STA

Stability AI

2024-10

Open SourceImage

Stable Diffusion 3.5

Dernier modèle de la famille Stable Diffusion, le pionnier de la génération d'images open source. Architecture Multimodal Diffusion Transformer. Entièrement personnalisable et déployable localement, avec un vaste écosystème de fine-tunes et de LoRA.

✓Écosystème de fine-tunes et LoRA gigantesque

✓Très personnalisable et contrôlable (ControlNet, IP-Adapter)

✓Qualité photographique très haute

FLU

Black Forest Labs

2024-10

PropriétaireImage

FLUX 1.1 Pro

Modèle de génération d'images de Black Forest Labs, fondé par les créateurs originaux de Stable Diffusion. Offre une qualité photographique et une cohérence exceptionnelles. Reconnu comme l'un des modèles les plus performants sur les benchmarks d'évaluation humaine.

✓Excellente cohérence dans les détails

✓Très rapide (6x plus rapide que FLUX 1 Pro)

✓Génération de chansons complètes (paroles + musique + voix)

SUN

Suno

2024-10

PropriétaireAudio

Suno v4

Modèle de génération musicale de référence, capable de créer des chansons complètes (paroles, mélodie, voix) à partir d'un simple prompt textuel. Suno v4 améliore la qualité audio, la cohérence des paroles et la diversité des styles musicaux.

✓Qualité audio de niveau professionnel

✓Très large palette de styles musicaux

✓Meilleur modèle pour la génération de texte dans les images

IDE

Ideogram

2024-09

PropriétaireImage

Ideogram 2.0

Modèle de génération d'images spécialisé dans la génération de texte lisible et cohérent au sein des visuels. Résout le problème historique des modèles qui produisaient du texte illisible. Idéal pour les visuels marketing, affiches et infographies.

✓Typographie précise et lisible

✓Bon pour les affiches, logos et designs graphiques

✓Compréhension de la base de code entière

CUR

Cursor AI

2023-03

PropriétaireCode

Cursor

IDE IA-first basé sur VS Code, permettant des interactions naturelles avec la base de code entière. Cursor Chat permet de modifier des fichiers entiers via instructions en langage naturel. Adopté massivement par les développeurs solo et les startups pour sa productivité.

✓Mode Agent pour modifications multi-fichiers autonomes

✓Basé sur VS Code (extensions compatibles)

✓Eleven v3 : 70+ langues, contrôle émotionnel via audio tags

ELE

ElevenLabs

2023-01

PropriétaireAudio

ElevenLabs TTS

Plateforme de synthèse vocale ultra-réaliste, référence du marché. Le modèle flagship Eleven v3 (février 2026) supporte 70+ langues avec contrôle émotionnel avancé via audio tags. Flash v2.5 (32 langues) cible les applications temps-réel basse-latence. Plans : Free (10 000 crédits/mois ≈ 10 min), Starter ($5/mois), Creator ($22/mois), Pro ($99/mois).

✓Clonage vocal instantané (quelques secondes d'audio)

✓Flash v2.5 pour les applications temps-réel basse-latence

✓4,7M+ abonnés payants — standard de facto en entreprise

GIT

Microsoft / GitHub

2022-06

PropriétaireCode

GitHub Copilot

Assistant de codage IA le plus adopté en entreprise, avec 4,7M+ abonnés payants (jan. 2026) et disponible pour tous les développeurs GitHub (plan gratuit inclus). Intégré nativement à VS Code, JetBrains, Visual Studio et Neovim. Powered par des modèles d'OpenAI et Anthropic, avec Copilot Chat pour les conversations contextuelles.

✓Intégration native dans les IDEs majeurs

✓Complétion de code inline en temps réel