Le nouveau Claude 3.7 d'Anthropic simplifie ce que les autres modèles compliquent. Et le programme et la "raison" au pouce comme le meilleur

Anthropic a annoncé le lancement et la disponibilité de Claude 3.7 Sonnet, son nouveau modèle d’IA fondamental. Le saut est prometteur, mais se démarque surtout pour une chose: ils indiquent des modèles de raisonnement.

Ce n’est pas Claude 4.0, c’est Claude 3.7. Le numéro de la nouvelle version confirme à nouveau que le saut des avantages ne justifie pas un numéro plus « rond ». Beaucoup attendaient Claude 4.0, mais en anthropique, ils indiquent clairement qu’il s’agit d’une version beaucoup plus évolutive que révolutionnaire.

Un modèle hybride. En anthropique, ils supposent d’avoir un modèle hybride qui ne fait pas la différence entre les questions et répondre rapidement aux questions, raison ou toute autre application, car tout est basé sur le modèle de fondation Claude 3.7, qui fait tout et se comporte de cette façon multidisciplinaire. Et comme il fait tout, il est un peu plus cher que la concurrence: son API coûte 3 $ par million de jetons d’entrée et 15 $ par million de jetons de départ

Claude peut déjà « raisonner ». Dans une annonce distincte, Anthropic nous a parlé de son nouveau mode de raisonnement, appelé « Mode de pensée étendu », qui devient désormais une plus option parmi laquelle nous pouvons afficher lors de l’utilisation de son modèle. Si nous l’activons, le modèle « réfléchira plus profondément aux questions complexes ». Comme l’expliquent les personnes responsables, ce mode utilise le même modèle d’IA, mais le fait en lui donnant plus de temps et en investissant plus d’efforts pour atteindre une réponse.

Comment pense Claude. Ce mode de raisonnement offre la possibilité de voir ce que le modèle pense lors du traitement de ces réponses. Ici, ils avertissent que ces informations peuvent être surprenantes, car nous pouvons voir comment l’IA peut « penser » des choses incorrectes, mais montrent également que le processus ne signifie pas que la réponse est uniquement basée sur elle. « Nos résultats suggèrent que les modèles prennent souvent des décisions en fonction de facteurs qui ne sont pas explicitement discutés dans leur processus de raisonnement. »

Les choses sont sauvées. Autrement dit: le modèle semble garder les choses pour vous en pensant, mais il n’est pas clair lequel ou pourquoi. Il y a une autre raison de ne pas tout montrer: cela soulève des problèmes de sécurité, car avoir toutes ces informations donne potentiellement des ressources aux mauvais acteurs pour profiter du modèle de formes inappropriées.

Source: anthropique

Vous pouvez jouer à Pokémon seul. Le nouveau modèle anthropique est également plus « Agénico » que jamais. Il réagit mieux aux changements dans l’environnement et continue d’agir jusqu’à ce qu’une tâche ouverte soit terminée. Cela fait de la fonction «d’utilisation de l’ordinateur» qui permet à l’IA de contrôler notre ordinateur d’être de plus en plus prometteur. Ils l’ont démontré avec Pokémon: Claude 3.7 est venu beaucoup plus loin que les modèles précédents.

Claude Code arrive. Le modèle anthropique a toujours mis en évidence dans la portée de la programmation, et maintenant ils voulaient promouvoir cette capacité avec Claude Code, un outil Basda dans Claude 3.7 Sonnet mais spécifiquement axé sur l’aide aux programmeurs à développer leurs projets.

Un agent de programmation. Cela pourrait également être considéré comme le premier agent d’Anthropic, car Claude Code est en mesure de réaliser des projets de programmation de manière autonome sans avoir besoin d’interaction utilisateur. Ainsi, Claude peut rechercher entre la base avec du code sur lequel baser, lire et modifier des fichiers, écrire et exécuter des tests, publier le code dans les référentiels GitHub et exécuter des commandes sur une console tout en informant les développeurs de l’ensemble du processus. La vidéo démonstrative d’Anthropic vous permet de vérifier certaines de ces fonctions.

Similaire à Grok3 en performance. Le nouveau Grok 3 présenté ces jours-ci par Xai a montré une étape supplémentaire dans ses performances dans les repères les plus exigeants aujourd’hui, et Claude 3.7 est également dans cette ligne, ce qui signifie que c’est quelque chose de supérieur dans ces tests à des modèles tels que O1 et O3- Mini (d’Openai) et Deepseek R1.

Dans Simseo | J’ai essayé Deepseek sur le Web et dans mon Mac.