Claude Opus 4.8 n'est pas seulement meilleur que les autres modèles d'IA. C'est quelque chose de bien plus important : honnête à propos de votre intelligence

On ne l’attendait pas si tôt, mais voici Claude Opus 4.8, la nouvelle version du modèle frontière d’Anthropic. Seulement 41 jours se sont écoulés depuis le lancement de Claude Opus 4.7, ce qui semble indiquer clairement que l’entreprise n’était pas entièrement satisfaite de ce modèle, qui n’a pas non plus reçu de très bonnes critiques. Avec Claude Opus 4.8, ce qui est vraiment curieux, ce n’est pas qu’il établisse à nouveau des records dans la plupart des benchmarks. La surprise est son honnêteté.

C’est mieux, oui, mais ce n’est pas ce qui compte. Dans les résultats internes des benchmarks publiés par Anthropic, il est clair que l’Opus 4.8 est supérieur à l’Opus 4.7, mais aussi à GPT 5.5 et Gemini 3.1 Pro (curieux, ils ne le comparent pas au récent Gemini 3.5 Flash. Il les surpasse tous dans ces tests sauf dans TerminalBench 2.1, dans lequel GPT-5.5 est quelque peu supérieur. On s’attend en fait à ce que chaque nouveau modèle surpasse son prédécesseur, mais ce qui est frappant voici l’approche du modèle.

Capture d'écran 2026 05 29 Au 9 04 23

L’honnêteté avant tout. Boris Cherny, responsable de Claude Code chez Anthropic, a expliqué que le modèle ne se contente pas de mieux programmer : « il est nettement plus honnête sur son propre travail. Il vous signale lorsqu’il n’est pas sûr de quelque chose et détecte ses propres échecs au lieu de crier victoire trop tôt. »

Capture d'écran 2026 05 29 Au 8 41 27

Je sais juste que je ne sais rien. Une autre ingénieure d’Anthropic, Catherine Wu, a souligné cette nouvelle « personnalité » de Claude Opus 4.8, capable d’admettre qu’il ne sait pas quelque chose au lieu de répondre pour le plaisir de répondre et de passer outre les erreurs dans ses réponses ou dans le code qu’il génère. Ceux qui l’ont essayé conviennent qu’il s’agit d’un modèle plus « aligné », c’est-à-dire qu’il s’adapte aux valeurs, intentions, éthiques et objectifs humains.

Moins d’hallucinations, plus d’humanité. Depuis un certain temps, nous constatons à quel point les nouveaux modèles d’IA sont meilleurs dans les benchmarks, mais il y a également eu des progrès significatifs dans la réduction des hallucinations. Non seulement ils inventent et font moins d’erreurs : ils commencent à reconnaître qu’ils ne savent pas tout. C’est très important… et très humain. La « Carte Système » très complète comprend de nombreuses métriques qui semblent certainement démontrer que nous sommes face à un modèle bien plus abouti que ses prédécesseurs dans ce domaine.

Flux de travail. L’une des nouvelles fonctionnalités présentées avec le modèle sont les workflows dynamiques (Dynamic Workflows), disponibles en avant-première et visant une seule chose : pouvoir travailler avec des tâches plus complexes dans Claude Code. Grâce à cette option, il est possible de déployer des centaines d’agents parallèles en une seule session, ce qui est par exemple utile pour analyser et migrer des référentiels de code de centaines de milliers de lignes.

Pas de Sonnet ni de Haïku. Claude Sonnet 4.6 est sorti le 17 février 2026, mais Anthropic n’a pas mis à jour ce modèle depuis. Les choses sont encore pires pour Claude Haiku, dont la dernière version est la 4.5, sortie le 15 octobre 2025. Ces modèles étaient des versions plus modestes en termes de performances mais bien moins chères (surtout Haiku), et pour l’instant Anthropic ne les a pas mis à jour. Cela profite à leurs intérêts, car si vous voulez le meilleur, vous ne pouvez avoir que le meilleur et le plus cher, mais pas le meilleur dans sa version « abordable ».

Des modèles de la capacité Mythos seront bientôt disponibles. Dans l’annonce officielle d’Anthropic, ils ont clairement indiqué que « les utilisateurs détecteront que l’Opus 4.8 est une amélioration modeste mais tangible par rapport à son prédécesseur », mais ils ont également souligné quelque chose d’important, à savoir que dans les semaines à venir, nous aurons des modèles d’IA avec des capacités similaires à celles de Claude Mythos, mais accessibles au public :

« Nous prévoyons de lancer une nouvelle classe de modèles dotés d’une intelligence encore plus grande qu’Opus. Dans le cadre du projet Glasswing, un petit nombre d’organisations utilisent actuellement Claude Mythos Preview pour leurs travaux de cybersécurité. Les modèles dotés de ce niveau de capacité nécessitent des mesures de cybersécurité plus robustes avant leur publication générale. Nous progressons rapidement dans le développement de ces mesures et sommes impatients de proposer des modèles de classe Mythos à tous nos clients dans les semaines à venir. «

À Simseo | Bienvenue dans le duopole de l’IA : le secteur réalise déjà un chiffre d’affaires de 80 milliards par an, mais OpenAI et Anthropic prennent 89% des revenus