Claude Opus 4.6 : plus de contexte, plus d'autonomie, plus de fiabilité

Anthropic a annoncé Claude Opus 4.6, une mise à jour substantielle de son modèle phare. La nouvelle version renforce considérablement les capacités de programmation, de planification et de révision du code, permettant au modèle de fonctionner avec une plus grande précision, même sur des bases de code volumineuses et des tâches d'agent de longue durée.

Pour la première fois dans la famille Opus, le modèle introduit une fenêtre contextuelle d'un million de jetons en version bêta, marquant un changement radical dans l'utilisation pratique de l'IA sur des documents, conversations et projets complexes.

Codage, agents et travail quotidien : là où Opus 4.6 fait la différence

Opus 4.6 ne se limite pas au développement de logiciels. Ses capacités renforcées s'étendent à de nombreuses tâches professionnelles : analyse financière, recherche, gestion et création de documents, feuilles de calcul et présentations. Au sein de Cowork, l'environnement dans lequel Claude peut opérer de manière autonome et multitâche, le modèle combine ces compétences pour travailler activement pour l'utilisateur.

Selon Anthropic, le modèle démontre une plus grande capacité à se concentrer sur les parties les plus complexes des tâches, tout en accélérant les plus simples et en maintenant la productivité même lors de sessions prolongées.

Performance record par rapport aux références de l’industrie

En termes d'évaluations indépendantes, Claude Opus 4.6 obtient les meilleurs résultats. Il est premier dans le benchmark de codage agent Terminal-Bench 2.0 et est en tête du classement du Humanity's Last Exam, un test de raisonnement multidisciplinaire très complexe.

Le résultat sur GDPval-AA est particulièrement significatif, car il mesure les performances sur des activités économiquement pertinentes dans des domaines tels que la finance et le droit : l'Opus 4.6 surpasse le meilleur concurrent direct d'environ 144 points Elo et s'améliore de 190 points par rapport à la version précédente. Il excelle également sur BrowseComp, démontrant une capacité supérieure à trouver des informations difficiles en ligne.

Adieu à la « pourriture du contexte » : l’avantage du contexte long

Une des améliorations les plus significatives concerne la gestion des contextes longs. L’opus 4.6 réduit drastiquement le phénomène de «pourriture du contexte »c'est-à-dire la dégradation des performances à mesure que la durée des conversations augmente.

Dans le test MRCR v2 avec 1 million de jetons, le modèle atteint une précision de récupération d'informations de 76 %, contre 18,5 % dans la génération précédente. Cela se traduit par une réelle capacité à maintenir cohérence, mémoire et précision sur des volumes de texte auparavant impraticables.

La sécurité et l’alignement restent essentiels

Anthropic souligne que les gains en matière de renseignement ne compromettent pas la sécurité. L'Opus 4.6 présente de très faibles taux de comportements désalignés – tels que la tromperie, la complaisance ou la coopération en cas d'utilisation abusive – ce qui le rend aussi aligné, voire plus, que son prédécesseur.

Le modèle a subi le programme d'évaluation le plus approfondi jamais réalisé par l'entreprise, comprenant de nouveaux tests sur le bien-être des utilisateurs, le rejet des demandes dangereuses et la prévention des actions malveillantes cachées. Une attention particulière a été accordée à la cybersécurité, avec la mise en place de nouvelles enquêtes pour identifier les abus potentiels.

Actualités pour les développeurs et la plateforme API

Des mises à jour importantes du produit arrivent également avec l'Opus 4.6. L'API introduit la pensée adaptative, qui permet au modèle de décider de manière autonome quand approfondir son raisonnement, ainsi que de nouveaux niveaux d'effort pour équilibrer qualité, rapidité et coût.

Le compactage du contexte pour les longues conversations, la prise en charge de 128 000 jetons en sortie et l'option d'inférence limitée aux États-Unis font également leurs débuts. Le modèle est disponible sur claude.ai, via API et sur les principales plateformes cloud, avec des tarifs inchangés, 5/25 dollars par million de tokens. Pour tous les détails, vous pouvez consulter la page de tarification.

Une description détaillée de toutes les évaluations de capacité et de sécurité se trouve dans la fiche système Claude Opus 4.6.

Claude se lance de plus en plus dans le travail de bureau

Anthropic renforce également l'intégration avec les outils bureautiques. Claude dans Excel gère des tâches plus complexes et des données non structurées avec une plus grande autonomie, tandis que Claude dans PowerPoint, en aperçu de recherche, est capable de générer des présentations respectant la mise en page et l'image de marque de l'entreprise.

L’objectif est clair : transformer Claude en un assistant IA de plus en plus central dans les flux de travail quotidiens des développeurs, des équipes et des travailleurs du savoir.