Openai dévoile l'agent «opérateur» qui gère les tâches Web

Openai jeudi a introduit un programme d’intelligence artificielle appelée « opérateur » qui peut tendre à des tâches en ligne telles que la commande d’articles ou le remplissage des formulaires.

L’opérateur peut rechercher des pages Web et interagir avec eux en tapant, en cliquant ou en faisant défiler la façon dont une personne pourrait, selon Openai.

« L’opérateur peut être invité à gérer une grande variété de tâches de navigateur répétitives telles que le remplissage des formulaires, la commande d’épicerie et même la création de mèmes », a déclaré Openai dans un article en ligne.

« La possibilité d’utiliser les mêmes interfaces et outils avec lesquelles les humains interagissent quotidiennement élargissent l’utilité de l’IA, aidant les gens à gagner du temps sur les tâches quotidiennes tout en ouvrant de nouvelles opportunités d’engagement pour les entreprises. »

Un «agent» de l’IA, la dernière tendance de la Silicon Valley, est un aide numérique qui est censé ressentir un environnement, prendre des décisions et prendre des mesures pour atteindre des objectifs spécifiques.

Google a annoncé en décembre les capacités d’agent avec le lancement de Gemini 2.0, son modèle d’intelligence artificielle le plus avancé à ce jour.

AI Race Rival Anthropic Deux mois plus tôt, a ajouté une fonction «d’utilisation de l’ordinateur» à son modèle de Claude Frontier AI dans une phase bêta publique expérimentale.

« Les développeurs peuvent diriger Claude pour utiliser les ordinateurs comme les gens – en regardant un écran, en déplaçant un curseur, en cliquant sur des boutons et en tapant du texte », a déclaré Anthropic dans un article à l’époque, mettant en garde qu’il s’agissait d’un travail en cours.

OpenAI a décrit l’opérateur comme l’un de ses premiers agents d’IA capable de travailler pour les personnes indépendamment, conçu pour effectuer des tâches qui lui sont données.

L’opérateur est disponible uniquement pour les utilisateurs américains qui paient des abonnements pro au service OpenAI « pour assurer un déploiement sûr et itératif », a déclaré Openai.

« S’il rencontre des défis ou fait des erreurs, l’opérateur peut tirer parti de ses capacités de raisonnement pour s’auto-correction », a déclaré Openai.

« Lorsqu’il est coincé et a besoin d’aide, il est simplement le contrôle des mains à l’utilisateur. »

L’opérateur est formé pour demander à l’utilisateur de prendre le relais des tâches qui nécessitent une connexion, des détails de paiement ou lors de la résolution des défis de sécurité « CAPTCHA » destinés à distinguer les personnes et les logiciels en ligne, selon Openai.

« Les utilisateurs peuvent avoir un opérateur exécuter plusieurs tâches simultanément en créant de nouvelles conversations, comme la commande d’une tasse d’émail personnalisée sur Etsy lors de la réservation d’un camping sur hipcamp », a déclaré Openai.