Anthropic coince Gemini 3 Pro et GPT-5.2 plus que jamais
Pensez un instant aux modèles d’intelligence artificielle que vous avez utilisés ces derniers jours. Cela a peut-être été via ChatGPT, Gemini ou Claude, ou peut-être via des outils comme Codex, Claude Code ou Cursor AI. En pratique, le choix est généralement simple : nous finissons par utiliser ce qui correspond le mieux à nos besoins à un moment donné, presque sans réfléchir à la technologie qui se cache derrière.
Cependant, cet équilibre change fréquemment. Chaque nouveau modèle qui apparaît promet des améliorations, de nouvelles capacités ou des façons de travailler différentes, et avec lui revient une question assez directe : si cela vaut la peine d'essayer, s'il peut vraiment nous offrir quelque chose de mieux ou si ce que nous utilisons déjà est encore suffisant. Claude Sonnet 4.6 vient de se faire remarquer et voici comment il se positionne face à la concurrence.
Le point de départ de Claude Sonnet 4.6. Nous trouvons ici ce qu’Anthropic décrit comme une amélioration transversale des capacités, qui comprend des progrès dans le codage, l’utilisation de l’ordinateur, le raisonnement en contexte long, la planification des agents et les tâches typiques du travail intellectuel et créatif. À cet ensemble s'ajoute une fenêtre contextuelle pouvant contenir jusqu'à un million de jetons en version bêta, conçue pour traiter des bases de code entières, des contrats étendus ou de grandes collections d'informations sans fragmentation.
Trois niveaux, la même carte. Pour comprendre où s'inscrit Sonnet 4.6, il convient d'examiner comment Anthropic tend à organiser sa famille de modèles en différents niveaux avec des objectifs différents. Haiku donne la priorité à la vitesse et à l'efficacité, Opus est réservé aux tâches qui nécessitent le raisonnement le plus approfondi et Sonnet occupe le juste milieu, conçu comme un équilibre entre capacité et coût d'exploitation. Dans ce cadre, l'entreprise affirme que le nouveau Sonnet se rapproche dans certains emplois réels des performances précédemment associées à l'Opus, une revendication ambitieuse.
Quand l’IA commence à utiliser l’ordinateur. L'une des améliorations qu'Anthropic souligne le plus avec insistance dans Sonnet 4.6 est son progrès dans ce qu'il appelle , c'est-à-dire la capacité du modèle à interagir avec le logiciel d'une manière similaire à une personne, sans dépendre d'API conçues spécifiquement pour l'automatisation. Ces progrès sont soutenus par des références telles que OSWorld-Verified, un environnement de test avec des applications réelles où la famille Sonnet s'améliore régulièrement depuis plusieurs mois. L'entreprise reconnaît également les limites et les risques dont nous avons parlé précédemment, comme les tentatives de manipulation utilisant .

À la recherche du « meilleur » modèle. À ce stade, la question pertinente n'est plus de savoir dans quelle mesure le Sonnet 4.6 s'est amélioré en termes absolus et commence à se concentrer sur sa comparaison avec les autres grands modèles qui rivalisent aujourd'hui pour le même espace d'utilisation. La comparaison n’est pas simple et ne permet pas de désigner un seul gagnant, car chaque système excelle dans des domaines différents et répond à des priorités techniques différentes. C’est pourquoi il est conseillé de les lire dans une perspective pratique, en identifiant dans quelles tâches spécifiques apparaissent les véritables différences.
Où chaque modèle se démarque. La comparaison directe avec GPT-5.2 dessine une répartition des forces plutôt qu’une victoire claire. Selon le tableau publié par Anthropic, Sonnet 4.6 se démarque particulièrement largement dans l'utilisation autonome de l'ordinateur mesurée dans OSWorld-Verified, en plus de montrer un avantage dans les tâches bureautiques (GDPval-AA Elo) et dans certains scénarios d'analyse ou de résolution de problèmes (Finance Agent v1.1, ARC-AGI-2). GPT-5.2, pour sa part, maintient de meilleurs résultats en raisonnement de niveau supérieur (GPQA Diamond), en compréhension visuelle (MMMU-Pro) et en programmation de terminal (Terminal-Bench 2.0), avec des nuances telles que des résultats marqués comme Pro dans certains tests.

La comparaison avec Gemini 3 Pro introduit une nuance différente, car ici les avantages se concentrent avant tout dans le domaine du raisonnement et de la culture générale. Le modèle Google obtient de meilleurs résultats aux tests de raisonnement de niveau supérieur (GPQA Diamond) et aux questionnaires multilingues à large portée (MMMLU), en plus d'être en avance dans le raisonnement visuel sans outils (MMMU-Pro). Sonnet 4.6 conserve en revanche un certain avantage lorsque des outils externes ou des scénarios plus proches du travail appliqué entrent en jeu. L’absence de quelques données comparables dans le tableau lui-même oblige, en tout cas, à interpréter ce duel avec prudence.
Où Sonnet 4.6 peut être utilisé. Le nouveau modèle est disponible dans tous les forfaits Claude, y compris le niveau gratuit, où il devient également l'option par défaut au sein de claude.ai et Claude Cowork. Il peut également être utilisé via Claude Code, l'API et les principales plateformes cloud, en conservant le même prix que la version Sonnet 4.5.
Après avoir parcouru les capacités, les limites et les comparaisons, la vraie décision revient au quotidien de l'utilisateur. Sonnet 4.6 vise à être particulièrement utile dans les tâches productives, l'interaction directe avec les logiciels et les longs flux de travail, tandis que GPT-5.2 et Gemini 3 Pro conservent des avantages en raisonnement académique, en compréhension visuelle ou en connaissances générales selon le test considéré. Personne ne domine tous les fronts, et cette fragmentation en dit long sur la situation actuelle de l’IA.
Images | Anthropique
À Simseo | En 2025, l’IA semblait avoir heurté un mur de progrès. Un mur volatilisé en février 2026
À Simseo | La grande révolution du Codex GPT-5.3 et de Claude Opus 4.6 n’est pas qu’ils soient plus intelligents. C'est qu'ils peuvent s'améliorer
