Anthropic met à jour Claude 3.5 Sonnet : il peut désormais prendre le contrôle de l'ordinateur

ETsuivre indépendamment les tâches sur le PC. C'est ce qu'il peut faire maintenant Claude 3.5 Sonnet, Le modèle d'IA d'Anthropic. Avec le consentement des utilisateurs – évidemment – Claude peut naviguer sur Internet, cliquer sur des boutons et insérer du texte, agir en tant que « collaborateur humain ». Cette innovation vise à simplifier les tâches répétitives comme la gestion de votre agenda et le remplissage de formulaires.

Anthropic a annoncé la sortie de la mise à jour pour Claude 3.5 Sonnets et un nouveau modèle, Claude 3.5 Haïku.

Automatisez votre routine quotidienne

Disponible sur l'API, les développeurs peuvent demander à Claude 3.5 d'utiliser les ordinateurs comme les gens le font : regarder un écran, déplacer un curseur, cliquer sur des boutons et saisir du texte. Claude 3.5 Sonnet est le premier modèle d'IA frontière à proposer une utilisation sur ordinateur en version bêta publique. A ce stade, elle est encore expérimentale, parfois lourde et sujette aux erreurs. Nous publions très tôt l'utilisation de l'ordinateur pour recueillir les commentaires des développeurs et espérons que la capacité s'améliorera rapidement au fil du temps.

Mike Krièger, directeur des produits d'Anthropic, explique que l'objectif est « d'automatiser la monotonie de la vie ». Actuellement, Claude peut réduire considérablement le temps nécessaire pour effectuer des tâches qui prendraient généralement une heure, permettant ainsi aux utilisateurs de se concentrer sur les aspects créatifs et humains de leurs tâches.

Ce développement représente la dernière étape de la start-up de San Francisco pour créer des systèmes d'agents, considéré comme l'avenir de la technologie de l'IA. Même d'autres géants de la technologie comme Microsoft Et OpenAI travaillent sur des solutions similaires pour automatiser les tâches quotidiennes et générer de nouvelles sources de revenus.

Exemples d'utilisation pratique

Un exemple pratique d'utilisation de Claude 3.5 inclut la planification d'événements. L'IA peut trouver des lieux d'intérêt, calculer les temps de trajet et créer des événements de calendrier. À l'aide de captures d'écran d'ordinateur, Claude peut interpréter le contenu et interagir avec le système, aussi bien sur Mac que sur PC Windows.

Malgré le potentiel, Anthropic reconnaît que le modèle peut utiliser des informations peu fiables provenant du Web. La société étudie l'intégration de ces capacités sur les appareils mobiles et travaille à la création d'un produit destiné aux consommateurs. Krieger compare la technologie aux véhicules autonomes, notant que la confiance des utilisateurs sera un processus évolutif.

Asana, Canva, Cognition, DoorDash, Replit et The Browser Company ont déjà commencé à explorer ces possibilités, en effectuant des tâches qui nécessitent des dizaines, voire des centaines, d'étapes. Par exemple, Replit utilise les fonctionnalités de Claude 3.5 Sonnet avec l'utilisation d'un ordinateur et la navigation dans l'interface utilisateur pour développer une fonctionnalité clé qui évalue les applications au fur et à mesure de leur création pour leur produit Replit Agent.

Apprenez à Claude à naviguer de manière responsable sur les ordinateurs

Au lieu de créer des outils spécifiques pour aider Claude à accomplir des tâches individuelles, Anthropic lui enseigne des compétences informatique généralelui permettant d'utiliser une large gamme d'outils et de logiciels standards conçus pour les utilisateurs. Les développeurs peuvent utiliser cette capacité naissante pour automatiser des processus répétitifs, créer et tester des logiciels et effectuer des tâches ouvertes telles que la recherche.

Pour rendre possibles ces compétences générales, Anthropic a créé une API qui permet à Claude de percevoir et d'interagir avec les interfaces informatiques. Les développeurs peuvent intégrer cette API pour permettre à Claude de traduire des instructions (par exemple, « utiliser les données de mon ordinateur et en ligne pour remplir ce formulaire ») en commandes informatiques (par exemple, consulter une feuille de calcul, déplacer le curseur pour ouvrir un navigateur Web, accédez aux pages Web pertinentes, remplissez un formulaire avec les données de ces pages, etc.).

Sur OSWorld, qui évalue la capacité des modèles d'IA à utiliser des ordinateurs comme le font les gens, Claude 3.5 Sonnet a obtenu un score de 14,9 % dans la catégorie capture d'écran uniquement, nettement meilleur que le score de 7,8 % de ce dernier pour le meilleur système d'intelligence artificielle. Lorsqu'on lui a donné plusieurs étapes pour accomplir la tâche, Claude a obtenu un score de 22 %.

Anthropic ne cache pas que leLa capacité actuelle de Claude à utiliser les ordinateurs est imparfaite. Certaines actions que les gens effectuent sans effort, comme faire défiler, glisser, zoomer, posent actuellement un défi à Claude, et nous encourageons les développeurs à commencer l'exploration par des activités à faible risque.

Puisque l'utilisation de l'ordinateur peut constituer un nouveau vecteur de menaces mieux connu sous le nom de spam, désinformation ou fraude, Anthropic adopte une approche proactive pour promouvoir sa mise en œuvre sécurisée ; a développé de nouveaux classificateurs capables d'identifier quand l'ordinateur est utilisé et si des dommages se produisent.

Pour en savoir plus sur le processus de recherche derrière cette nouvelle compétence, ainsi que sur les mesures de sécurité : Développer l'utilisation de l'ordinateur.

Claude 3.5 Sonnet : les nouveautés

La mise à jour Claude 3.5 Sonnet présente des améliorations considérables par rapport aux références du secteur, avec des gains particulièrement importants dans les tâches de codage des agents et d'utilisation des outils. Concernant le codage, il améliore les performances sur SWE-bench Verified de 33,4% à 49%, avec des scores supérieurs à tous les modèles accessibles au public, y compris les modèles de raisonnement tels que OpenAI o1-preview et les systèmes spécialisés conçus pour le codage agent. Il améliore également les performances sur TAU-bench, une tâche basée sur des agents, de 62,6 % à 69,2 % dans le secteur de la vente au détail et de 36 % à 46 % dans le secteur aérien, plus exigeant. Le nouveau Claude 3.5 Sonnet offre ces avancées au même prix et à la même vitesse que son prédécesseur.

Les premiers commentaires des clients suggèrent que la mise à jour Claude 3.5 Sonnet représente une avancée significative pour le codage basé sur l'IA. GitLabqui a testé le modèle pour les tâches DevSecOps, a constaté qu'il fournit un raisonnement plus fort (jusqu'à 10 % dans les cas d'utilisation) sans latence supplémentaire, ce qui en fait un choix idéal pour alimenter les processus de développement logiciel en plusieurs phases. Cognition utilise le nouveau Sonnet Claude 3.5 pour les évaluations autonomes de l'IA et a constaté des améliorations substantielles en matière de codage, de planification et de dépannage par rapport à la version précédente. La société du navigateuren utilisant le modèle pour automatiser les flux de travail basés sur le Web, a noté que Claude 3.5 Sonnet surpassait tous les modèles testés précédemment.

Dans le cadre de l'engagement continu de collaborer avec des experts externes, des tests conjoints préalables à la mise en œuvre du nouveau modèle Claude 3.5 Sonnet ont été menés par l'AI Safety Institute des États-Unis (US AISI) et le Royaume-Uni (UK AISI).

L'avenir de l'utilisation de l'ordinateur

L’utilisation des ordinateurs constitue une approche complètement différente du développement de l’intelligence artificielle. Jusqu'à présent, les développeurs LLM ont adapter les outils au modèleproduisant des environnements personnalisés dans lesquels les IA utilisent des outils spécialement conçus pour effectuer diverses tâches. Maintenant tu peux adapter le modèle aux outils: Claude sait s'adapter aux environnements informatiques que nous utilisons tous au quotidien. Le but est que Claude prenne des logiciels préexistants et les utilise simplement comme le ferait une personne.

Anthropic admet qu’il reste encore beaucoup à faire. Même si c'est l'état actuel de la technique, L'utilisation de l'ordinateur par Claude reste lente et souvent sujette aux erreurs. Il y a beaucoup de choses que les gens font régulièrement avec des ordinateurs que Claude ne peut pas encore tenter. La nature « flipbook » de la visualisation de l'écran de Claude – prendre des captures d'écran et les composer, plutôt que d'observer un flux vidéo plus granulaire – signifie qu'il peut manquer des actions ou des notifications de courte durée.

Anthropic s'attend à ce que l'utilisation de l'ordinateur s'améliore rapidement pour devenir plus rapide, plus fiable et plus utile pour les tâches que les utilisateurs souhaitent accomplir. Il deviendra également beaucoup plus facile à mettre en œuvre pour ceux qui ont moins d’expérience en développement de logiciels.

Anthropic invite les développeurs qui souhaitent essayer d'utiliser l'ordinateur en version bêta publique à soumettre leurs commentaires via ce formulaire, afin que les chercheurs puissent continuer à améliorer l'utilité et la sécurité de cette nouvelle fonctionnalité.

Claude 3.5 Haiku : l'état de l'art rencontre l'accessibilité et la rapidité

Claude 3.5 Haiku est la nouvelle génération du modèle le plus rapide d'Anthropic. Au même coût et à une vitesse similaire à Claude 3 Haiku, Claude 3.5 Haiku s'améliore dans chaque ensemble de compétences et il surpasse même Claude 3 Opusle plus grand modèle de la génération précédente, dans de nombreux benchmarks d'intelligence. Claude 3.5 Haiku est particulièrement fort dans les tâches de codage. Par exemple, il a obtenu un score de 40,6 % sur SWE-bench Verified, surpassant de nombreux agents utilisant des modèles de pointe accessibles au public, notamment les originaux Claude 3.5 Sonnet et GPT-4o.

Grâce à faible latenceaméliorant l'exécution des instructions et l'utilisation plus précise des outils, Claude 3.5 Haiku convient aux produits destinés aux utilisateurs, aux tâches spécialisées des sous-agents et à la génération d'expériences personnalisées à partir d'énormes volumes de données, telles que l'historique des achats, les prix ou les enregistrements d'inventaire.

Claude 3.5 Haiku sera disponible fin octobre via l'API propriétaire de Google Cloud, Amazon Bedrock et Vertex AI, initialement sous la forme d'un modèle texte uniquement suivi d'une saisie d'image.

Conclusions

Anthropic considère que sa mission est de diriger l'avenir de l'IA d'une manière centrée sur l'humain. L'objectif est d'intégrer ces capacités dans ses produits pour améliorer l'utilisation des ordinateurs, en gardant toujours l'utilisateur au centre.