Claude Sonnet 4.6 : ce qui change par rapport à la 4.5 et Opus

Claude Sonnet 4.6 marque un pas de géant dans la famille de modèles Sonnet d'Anthropic, avec des améliorations considérables au codage, au calcul et au raisonnement sur des contextes pouvant atteindre un million de jetons. Les innovations concernent à la fois les performances et l'intégration dans les produits et API, avec un positionnement qui rapproche la gamme Sonnet des capacités historiquement réservées aux modèles Opus.

Claude Sonnet 4.6 : ce qui change par rapport à Sonnet 4.5

Avec Claude Sonnet 4.6 nous sommes confrontés à une mise à jour complète des compétences du modèle. Les améliorations concernent le codage, la planification des agents, le travail des connaissances, la conception et l'utilisation de l'ordinateur, avec une nette augmentation de la cohérence et de la capacité à suivre des instructions complexes.

Selon les tests internes et les premières évaluations des utilisateurs, la préférence par rapport à Sonnet 4.5 est large. Dans de nombreux cas, Sonnet 4.6 est même choisi par rapport aux modèles haut de gamme lancés précédemment, grâce à une moindre tendance àsuringénierie et à une réduction des hallucinations et des fausses déclarations de réussite. Le tout en conservant le même prix que la version 4.5, avec un coût commençant à 3/15 dollars par million de jetons et devenant le modèle par défaut dans les forfaits Free et Pro.

Un autre élément distinctif est la fenêtre contextuelle d'un million de jetons, actuellement en version bêta. Cela vous permet de télécharger des bases de code entières, des contrats complexes ou des dizaines de documents de recherche en une seule requête, améliorant ainsi la continuité logique des activités à long terme.

L'évolution de l'usage de l'informatique dans les modèles Claude

L’une des avancées les plus significatives concerne ce que l’on appelle « l’utilisation de l’ordinateur ». De nombreuses organisations utilisent des logiciels ou des outils existants sans API modernes et difficiles à intégrer dans les flux automatisés. L’idée d’un modèle capable d’utiliser un ordinateur comme le ferait une personne – cliquer, taper, naviguer entre les fenêtres – change radicalement la donne.

La référence OSMonde mesure précisément cette capacité, en proposant des centaines de tâches sur des logiciels réels tels que des navigateurs, des éditeurs de code et des suites bureautiques, dans un environnement simulé. Les modèles ne disposent pas de connecteurs dédiés : ils voient l'écran et interagissent via une souris et un clavier virtuels.

Au cours des seize derniers mois, les modèles Sonnet ont montré des progrès constants. Avec la version 4.6, plusieurs utilisateurs signalent des résultats au niveau humain dans des tâches telles que la navigation dans des feuilles de calcul complexes ou le remplissage de formulaires Web de plusieurs pages. Il reste des marges par rapport aux utilisateurs plus expérimentés, mais le rythme d'amélioration indique que l'automatisation des tâches opérationnelles est de plus en plus concrète.

Parallèlement aux opportunités, des risques émergent également, tels que des injections rapides cachées sur les pages Web. Cependant, les évaluations de sécurité indiquent une nette amélioration de la résistance par rapport à la version 4.5, avec des performances en ligne avec les modèles Opus les plus récents.

Claude Sonnet 4.6 dans les benchmarks et préférences utilisateurs

En plus de l'utilisation de l'ordinateur, Claude Sonnet 4.6 s'améliore sur de nombreux points de repère. Lors des tests réalisés sur Claude Code, les utilisateurs ont préféré la version 4.6 à la version 4.5 dans environ 70 % des cas, mettant en évidence une plus grande capacité à lire le contexte avant de modifier le code et à consolider la logique partagée sans duplication inutile.

La comparaison avec les modèles Opus précédents est également intéressante : dans une partie importante des cas, Sonnet 4.6 a été jugé moins sujet à la « paresse » et plus fiable dans le suivi des instructions en plusieurs étapes. Les utilisateurs signalent moins d'hallucinations, moins de déclarations d'achèvement incorrectes et une meilleure gestion des tâches complexes.

La fenêtre de jetons 1M n’est pas seulement une question quantitative. Le modèle démontre sa capacité à raisonner efficacement dans l'ensemble du contexte disponible, ce qui est crucial pour la planification stratégique, l'examen de bases de code volumineuses ou l'analyse de contrats complexes.

Préférences de codage et front-end

Parmi les améliorations les plus citées figurent le frontend et l’analyse financière. Plusieurs clients décrivent une sortie visuelle plus soignée, avec des mises en page et des animations plus cohérentes. De plus, cela réduit le nombre d’itérations nécessaires pour arriver à des résultats prêts pour la production.

Planification stratégique et tests sur Vending-Bench Arena

Un cas emblématique des nouvelles capacités est représenté par le benchmark Vending-Bench Arena, qui simule la gestion d'une entreprise dans le temps dans un contexte concurrentiel entre modèles d'IA.

Dans ce scénario, le modèle a adopté une stratégie non linéaire : un fort investissement initial en capacité de production au cours des premiers mois simulés, suivi d'un virage brutal vers la maximisation de la rentabilité dans la phase finale. Le timing de ce pivot s’est avéré crucial pour dépasser ses concurrents.

Le résultat suggère une meilleure gestion de la planification à long terme, avec des évaluations dynamiques entre coûts, investissements et bénéfices. Pour les entreprises, ce type de comportement peut se traduire par une prise en charge plus robuste des simulations, des prévisions et de la coordination de plusieurs agents dans des flux de travail complexes.

Claude Sonnet 4.6 : Mises à jour du produit et comment l'utiliser

Côté produit, Claude Sonnet 4.6 prend en charge pensée adaptative, pensée étendue et le compactage du contexte en version bêta sur la plateforme développeur. Cette dernière fonctionnalité résume automatiquement le contexte le plus ancien à mesure que la conversation approche de ses limites, augmentant ainsi la longueur utilisable.

Dans l'API, les outils de recherche et de récupération sur le Web sont désormais capables d'écrire et d'exécuter du code pour filtrer et traiter les résultats, en gardant uniquement le contenu pertinent en mémoire. Des fonctions telles que l'exécution de code, la mémoire, l'appel d'outils de programmation et la recherche d'outils sont également disponibles de manière générale.

Le modèle est accessible sur tous les forfaits Claude, sur Claude Cowork, sur Claude Code, via API et sur les principales plateformes cloud. L'offre gratuite a également été mise à jour par défaut vers la version 4.6, incluant des fonctionnalités telles que la création de fichiers, les connecteurs et le compactage.

Pour les développeurs, le démarrage est immédiat via le endpoint dédié dans l'API Claude. Pour ceux qui migrent depuis la version 4.5, il est conseillé de tester différents niveaux de « effort de réflexion» pour trouver le meilleur équilibre entre rapidité et fiabilité, en fonction du type d’application développée.