L'agent IA d'Anthropic veut que l'IA change vraiment nos vies
Nos ordinateurs font ce que nous voulons, mais ils le font par étapes et toujours après nos différentes interactions. Si nous voulons supprimer un fichier, nous devons ouvrir l'explorateur de fichiers, aller dans le dossier où il se trouve, le sélectionner et l'envoyer à la corbeille. Et si nous pouvions simplement dire à l’ordinateur de trouver le fichier et de le supprimer avec une seule commande ?
Que C'est ce que propose la fonction 'Utilisation de l'ordinateur' de Claudele chatbot d'Anthropic. Présentée cette semaine dans un format quasi expérimental, cette fonctionnalité nous permet de donner des ordres à notre ordinateur pour qu'il fasse des choses que nous aurions normalement besoin de faire avec une souris et un clavier.
Il s’agit de l’une des démonstrations les plus convaincantes que nous ayons vues de la façon dont les agents d’IA peuvent réellement nous simplifier la vie. Des chatbots qui nous donnent des réponses (« c'est un bon hôtel »), nous pouvons passer aux agents qui font des choses avec ces réponses (« J'ai réservé cet hôtel pour vous pour samedi »). Le changement de paradigme est brutal.
Cela nous fait penser que nos ordinateurs et surtout nos téléphones portables résoudront nos vies. Au moins un peu. Ils deviendront des secrétaires/majordomes à qui on pourra demander des choses comme si on les demandait à un secrétaire humain.
La magie réside dans quelque chose qui semble trivial mais qui ne l'est pas : les nouveaux systèmes d'IA d'Anthropic peuvent voir ce qui est à l'écran, le reconnaître et effectuer des actions avec la souris et le clavier.
C'est quelque chose de similaire à ce que propose Microsoft avec Windows Recall ou Google avec sa nouvelle option Pixel Screenshots, car dans les deux cas, des captures d'écran sont prises pour reconnaître, étiqueter et analyser les informations de ces captures. Dans ces cas-là, l’objectif est de pouvoir consulter ces informations. Avec « Utilisation de l'ordinateur », ce que nous pouvons faire, c'est agir en conséquencece qui constitue une avancée très importante.
Certains utilisateurs ont déjà montré leur potentiel
Pour l'instant, la proposition d'Anthropic peut être testée de manière limitée : ils voulaient éviter les problèmes. Comme l'a expliqué l'expert Simon Willison dans ses tests, La fonction est utilisée dans un conteneur Docker avec Ubuntu 22.04 préconfiguré avec plusieurs applications et un serveur VNC, ce qui nous permet de tout voir sur notre écran.
Il faisait quelques tests simples comme naviguer sur son site Web et vérifier s'il avait écrit quelque chose sur les « pélicans », compiler et exécuter le « Hello World » typique en C, installer le paquet ffmpeg dans Ubuntu ou essayer de résoudre un Sudoku, quelque chose dans lequel Claude a apparemment lamentablement échoué.
Ces tests, réalisés dans l'environnement isolé d'Anthropic, se sont vite révélés être quelque chose de curieux mais qui a montré que peut aller beaucoup plus loin. Mckay Wrigley, un expert en IA, a montré dans une vidéo sur X (anciennement Twitter) comment il avait réussi à contrôler son iPhone en le connectant à son MacBook Pro en mode miroir puis en utilisant des commandes pour faire différentes choses sur l'écran du mobile.
Les exemples que de nombreux utilisateurs ont partagés sur des plateformes comme X sont frappants et démontrent deux choses. La première est que cette technologie n’en est qu’à ses premiers pas et présente donc d’importantes limites en termes de vitesse et de capacité. La seconde, celle son potentiel est énorme.
On le voit, par exemple, dans les tests qu'un utilisateur a fait en essayant de faire jouer le chatbot de manière autonome à Doom, un autre qui l'a testé en combinaison avec Figma pour concevoir une interface utilisateur, un autre qui a commandé une pizza ou un autre qui a créé un application pour Windows, macOS et Linux avec laquelle contrôler notre ordinateur.
Un autre développeur simplement appelé « killian » dans Le résultat : sortir du bac à sable d'Anthropic pour automatiser efficacement les choses sur votre propre ordinateur.
Ce développeur a prévenu : l'interaction n'est pas particulièrement rapideet Claude prend son temps avant de faire chaque chose car il doit analyser tout l'écran et exécuter petit à petit les actions qui aboutiront théoriquement à ce qu'on lui a demandé.
Il y a ici un autre facteur important : le coût. Pour utiliser toutes ces fonctions, nous aurons besoin de crédits Claude, et ces crédits coûtent de l'argent. Un utilisateur surnommé « proche » sur Le prix actuel de cette API est de 15 $ par million de jetons de sortie (3 $ pour les jetons d'entrée, vos demandes), donc commander ce repas était assez cher.
Il est cependant normal que ces premières expérimentations soient coûteuses : la technologie est encore quelque peu verte et sa consommation de ressources est notable. Cependant, On s’attend à ce que l’efficacité et les coûts s’améliorent considérablementce qui nous donnera théoriquement accès à des options beaucoup plus puissantes dans les mois à venir. Cela semble certainement être l'un des paris d'Anthropic avec cette proposition, et bien sûr, l'option est très, très prometteuse.
Images | Danhasnotes avec Midjourney
À Simseo | Microsoft commence à proposer des agents d'IA autonomes. Pour le moment ce sont des recettes IFTTT hypervitaminées