Une nouvelle plate-forme aide à évaluer l'IA pour une utilisation complexe de l'ordinateur

Imaginez demander à l’IA de planifier votre itinéraire de voyage, de réserver et de payer tous vos vols, et d’organiser votre transport aéroportuaire, le tout en un seul clic. Heureusement, une équipe de recherche internationale fait de cette vision une réalité.

L’équipe, composée de chercheurs de l’Université de Waterloo, de l’Université de Hong Kong, de Salesforce Research et de l’agent informatique développé de l’Université Carnegie, une plate-forme d’évaluation qui peut améliorer et créer des agents informatiques.

Un agent informatique est un type de logiciel qui peut effectuer des tâches au nom d’une personne ou d’une organisation, sans avoir besoin d’une intervention humaine constante. Il peut interpréter l’état de l’ordinateur et agir de manière autonome pour aider les utilisateurs à résoudre les problèmes. Des exemples d’agents informatiques incluent des assistants vocaux comme Siri et Alexa, qui peuvent aider les utilisateurs à envoyer des messages et planifier des réunions.

Les agents informatiques basés sur l’IA ont du mal à effectuer des tâches d’ordinateur complexes car elle nécessite de contrôler plusieurs applications informatiques et diverses étapes. Par exemple, le dépôt d’un rapport de dépenses peut être difficile car il nécessite une mise à jour d’une feuille de calcul en recherchant plusieurs e-mails et dossiers remplis de relevés bancaires et de reçus.

Computer Agent Arena est la première plate-forme d’évaluation interactive de l’utilisation d’ordinateurs qui se concentre sur l’exécution de diverses tâches sur plusieurs applications. Ce travail est une extension du travail des chercheurs sur Osworld, le premier environnement informatique évolutif et réel du monde pour les agents multimodaux.

« L’agent informatique Arena fournit une plate-forme à la communauté de recherche pour développer des agents efficaces et efficaces qui se généralisent à l’utilisation de l’ordinateur du monde réel », a déclaré le co-développeur, le Dr Victor Zhong, professeur adjoint à la Cheriton School of Computer Science. Comme les autres chercheurs de Waterloo, il étudie les interactions de technologie humaine, explorant comment atténuer les problèmes quotidiens en créant de nouvelles technologies.

« L’agent informatique Arena est distincte de recherches similaires comme Mind2Web et webarena car elle fournit des interfaces de programmation d’applications unifiées pour des observations et des actions complètes dans un environnement exécutable avec plusieurs applications. »

Grâce à l’agent informatique Arena, les utilisateurs peuvent évaluer et comparer divers agents informatiques basés sur des modèles de grands langues (LLM) et des modèles de langage de vision. Tout d’abord, les utilisateurs sélectionnent un système d’exploitation tel que Windows et des applications comme Google Chrome et Excel. Les utilisateurs peuvent ensuite inciter l’agent informatique avec une tâche, qui sera effectuée simultanément par deux modèles d’IA en temps réel. Une fois terminé, les utilisateurs peuvent évaluer les performances de chaque modèle et fournir des commentaires.

En fin de compte, l’équipe cherche à fournir une plate-forme diversifiée et dynamique pour la construction et l’évaluation des agents qui peuvent effectuer des tâches informatiques du monde réel aussi en toute sécurité, efficacement et efficacement que les humains.

« Nos résultats actuels montrent que les modèles de fondation tels que GPT4 et Claude sont loin de pouvoir agir en toute sécurité et efficacement en tant qu’adjoints d’agents informatiques », explique Zhong. « Computer Agent Arena fournit un bilan d’essai en temps opportun pour développer la prochaine génération d’agents d’IA. »