Claude Sonnet 4.5: Modèle anthropique pour le codage et les agents complexes

Est-il présenté comme le modèle « le plus puissant pour la programmation, la construction d'agents complexes et l'utilisation des ordinateurs »: le Claude Sonnet 4.5 d'Anthropic est-il vraiment? Ses compétences avancées de raisonnement et de mathématiques se traduisent par des outils d'exécution pour gérer les défis de travail numérique, où le code et l'automatisation sont désormais des éléments centraux.

Nouvelles dans les produits Claude

La nouvelle version présente des mises à jour pertinentes à toute la suite:

Claude Code obtient des points de contrôle, une fonction hautement demandée qui vous permet d'enregistrer les progrès et de revenir instantanément.
Interface terminale mise à jour et nouvelle extension native pour le code vs.
Fonctions d'édition contextuelles et outils de mémoire dans l'API, qui permettent aux agents de fonctionner plus longtemps et sur des tâches complexes.
Dans les applications Claude, la création de code arrive et la création de fichiers (feuille de calcul, présentations, documents) directement dans le chat.
L'extension Chrome est déjà mise à la disposition des utilisateurs Max sur la liste d'attente.

L'arrivée du SDK de l'agent Claude

L'une des innovations les plus stratégiques est la publication du SDK de l'agent Claude, l'infrastructure utilisée en interne par Anthropic pour développer le code Claude. Les développeurs peuvent désormais exploiter les mêmes outils pour créer des agents personnalisés, capables de gérer la mémoire, les permis et la coopération entre les sous-acants.

Une décision qui ouvre la voie à un écosystème de solutions avancées qui ne se limitent pas au codage.

Claude Sonnet 4.5, performance

Claude Sonnet 4.5 obtient les résultats d'une pertinence absolue dans la référence:

SWE-Bench vérifié: maintient la concentration sur des tâches complexes pendant plus de 30 heures, avec des scores plus élevés que tous les modèles rivaux.
OSWORLD: conquiert la première place avec 61,4%, un saut significatif contre 42,2% du sonnet 4 il y a seulement quatre mois.
Améliorations évidentes des mathématiques, du raisonnement et des connaissances sectorielles en finance, droit, médecine et disciplines.

Les experts qui l'ont testé ont souligné des progrès significatifs par rapport aux modèles précédents tels que l'OPU 4.1.

Sécurité et alignement

Anthropic définit Sonnet 4.5 Le modèle « le plus aligné » jamais sorti. Grâce à une formation avancée, des tendances problématiques telles que Attulation, tromperie, recherche de pouvoir et encouragement des pensées illusoires.

Le modèle est protégé du cadre au niveau de sécurité 3 (ASL-3), qui introduit des filtres capables d'identifier les entrées et les sorties dangereuses, en particulier concernant le CBRN (risques chimiques, biologiques, radiologiques, nucléaires). Les faux rapports ont été considérablement réduits, avec la possibilité de poursuivre l'interaction en utilisant Sonnet 4 en cas de blocs.

Une fenêtre sur le futur: Imaginez avec Claude

Parallèlement au lancement, Anthropic propose « Imagine avec Claude », un aperçu expérimental dans lequel le modèle génère un logiciel réel, sans code par défaut. Disponible pour cinq jours aux abonnés max, il est conçu comme une démonstration du potentiel créatif et adaptatif de Sonnet 4.5.

Claude Sonnet 4.5: Disponibilité et prix

Claude Sonnet 4.5 est déjà accessible partout via l'API, les applications et le code Claude, avec les mêmes prix que la version précédente: 3/15 $ par million de jeton. Les nouvelles fonctions, y compris le SDK de l'agent Claude, sont mises à la disposition des développeurs et des utilisateurs avec des plans payants.

Claude Sonnet 4.5 n'est pas seulement un nouveau modèle: c'est encore un autre signal que l'IA est de coloniser les territoires qui jusqu'à hier semblaient être réservés à l'humain. Le mantra d'Anthropic est « la sécurité et l'alignement », mais chaque filtre introduit apporte avec elle une question inconfortable: qui décide quels sont les comportements acceptables d'un agent intelligent? Le SDK de l'agent est peut-être la vraie bombe cachée: une boîte à outils qui place l'arsenal lui-même utilisé en interne entre les mains des développeurs. Potentiel illimité, bien sûr, mais aussi le risque de multiplier des expériences incontrôlables. En arrière-plan, le jeu habituel avec Openai et Google: Anthropic essaie de jouer à partir d'Outsider, en se concentrant sur la transparence technique. Cela fonctionnera-t-il? Ou sera-ce encore un autre « meilleur modèle de tous les temps » destiné à être surmonté dans quelques mois?

Pour les détails techniques complets et les résultats des évaluations, consultez la carte système, la page du modèle et la documentation.
Pour plus d'informations, explorez les articles d'ingénierie et de recherche sur la cybersécurité.