Claude Opus 4 lance et le présente comme le meilleur modèle de programmation au monde

Après que Google ait affiché toute son artillerie en intelligence artificielle, Anthropic n'a pas voulu être laissé pour compte. La société fondée par Dario Amodei a déménagé: a présenté Claude Opus 4 et Claude Sonnet 4deux nouveaux modèles avec lesquels il aspire à laisser sa marque sur la course pour l'IA.

La star de l'annonce est Claude Opus 4, le modèle le plus avancé Anthropic a développé jusqu'à présent. Et ils ne marchent pas avec les rodéos: ils garantissent que c'est « le meilleur modèle de programmation au monde. Une déclaration ambitieuse qui, comme toujours, devra être testée. Mais la première données la place très bien positionnée devant ses principaux rivaux.

Becmarks

Dans le benchmark Swe-Bench vérifié, qui évalue les tâches réelles d'ingénierie logicielle, Opus 4 obtient 72,5% dans des conditions standard et atteint 79,4% si le Traitement parallèle. Il s'agit d'une performance qui le laisse au-dessus de modèles tels que GPT-4.1 (54,6%), O3 (69,1%) ou le récent Gémeaux 2.5 Pro de Google (63,2%).

Cependant, dans d'autres preuves plus exigeantes dans le raisonnement multimodal, telles que GPQA Diamond ou MMMU, axée sur les questions de niveau universitaire et les scénarios complexes qui combinent du texte et de l'image, Opus 4 ne parvient pas à surmonter l'O3, qui continue de mener dans ce domaine.

Un modèle avec résistance et autonomie

Mais au-delà des chiffres, ce que l'anthropique veut mettre en évidence, c'est la résistance et l'autonomie de ce modèle. Claude Opus 4 est capable de maintenir de longues séances de travail et d'exécuter Des milliers d'étapes continuellement. De l'entreprise, ils expliquent que cela en fait une base idéale pour les agents plus sophistiqués: les systèmes qui prennent des décisions, effectuent des tâches par elles-mêmes et n'ont pas besoin de supervision humaine constante.

En parallèle arrive Claude Sonnet 4, une évolution du modèle que Anthropic a lancé en février. Il n'est pas destiné à rivaliser avec Power Opus, mais il offre une proposition très équilibrée entre les performances et l'efficacité. En codage, il fait également un saut important par rapport à sa version précédente: il passe de 62,3% à 72,7% dans SWE-Bench vérifié et améliore les tâches de raisonnement, la surveillance des instructions et la précision générale.

Le dernier événement Google indique clairement quel est le véritable avenir des accessoires: des lunettes connectées avec Android XR

Les deux modèles arrivent avec des nouvelles intéressantes. Par exemple, ils peuvent maintenant alterner entre le raisonnement et l'utilisation des outils Dans le même processus, qui permet des réponses plus complètes. Ils se sont également améliorés en fiabilité. Selon Anthropic, ils sont 65% moins susceptibles de prendre des raccourcis ou de faire de graves erreurs de Sonnet 3.7.

Claude Opus 4 et Sonnet 4 sont déjà disponibles dans l'API d'Anthropic, chez Amazon Bedrock et Google Cloud Vertex AI. Ils sont inclus dans les plans Pro, Max, Team et Enterprise. Les prix sont maintenus dans la ligne des modèles précédents: Opus 4 coûte 15 $ par million de jetons d'entrée et 75 par millions de jetons de départ. Sonnet 4 est plus abordable: 3 et 15 dollars respectivement. Ce dernier peut également être utilisé à partir de comptes gratuits.

Images | Anthropique

Dans Simseo | Nous avons essayé le nouveau mode Google AI: c'est une balle directe vers les liens bleus qui s'inquiètent et excitent à parts égales