Le modèle d’agent d’interface graphique UI-tars peut automatiser des tâches telles que la recherche et la réservation de billets de compagnie aérienne
Une équipe d’ingénieurs logiciels, de spécialistes de l’IA et de programmeurs de l’Université Tsinghua, en collaboration avec la société mère de Tiktok, ByTedance, a annoncé le développement d’un modèle d’agent d’interface utilisateur graphique (GUI) appelée UI-tars. Le groupe a annoncé son développement et son introduction au monde dans son ensemble dans un article publié sur le arxiv serveur de préimprimée.
Au cours de la dernière décennie, les applications de l’IA ont prospéré. Certains des plus connus sont des LLM tels que Chatgpt. Mais d’autres ont été en cours de développement pour servir divers objectifs. Une application aide les utilisateurs d’ordinateurs à effectuer des tâches banales, telles que l’approvisionnement du tarif de la compagnie aérienne le moins cher pour un vol entre deux villes, puis l’achat de billets pour cela. Ces tâches impliquent généralement une navigation Web chronométrée.
Les chercheurs de l’IA ont suggéré que de telles tâches pourraient être automatisées par des agents intelligents. Dans cette nouvelle étude, l’équipe en Chine a fait exactement cela avec le développement de tars d’interface utilisateur – un modèle d’agent GUI qui peut être utilisé localement sur un ordinateur personnel ou via le cloud sur d’autres appareils.
Le modèle a été formé à l’aide de 50 milliards de jetons qui représentaient les caractéristiques d’une GUI (via des captures d’écran), telles que celles trouvées sur les pages Web traditionnelles. La formation impliquait également le réglage de la réflexion, ce qui signifiait que le modèle a été programmé pour apprendre des erreurs puis pour s’adapter, modifiant comment il a abordé des situations différentes ou inconnues.
Lors de l’exécution de tars d’interface utilisateur, un utilisateur est présenté avec deux onglets – on montre le « processus de réflexion » que l’application est en cours au fur et à mesure de sa tâche globale. L’autre onglet affiche les sites Web, les fichiers ou les autres GUIS avec lesquels l’application fonctionne. Ainsi, s’il était utilisé pour réserver un vol, un utilisateur pouvait voir les sites Web des compagnies aériennes visualisées et pourrait ensuite passer pour voir ce que l’application faisait avec eux.
À la fin du processus, l’utilisateur est présenté avec la page Web finale, invitant la confirmation de l’achat de billets. En testant leur modèle, l’équipe a constaté qu’il surclassait d’autres modèles d’IA tels que GPT-4O ou Gemini-2.0.
