L'opérateur « regarde » également l'écran et déplace votre souris pour vous comme les autres agents IA. Ça fait mieux grâce à CUA

L’opérateur « regarde » également l’écran et déplace votre souris pour vous comme les autres agents IA. Ça fait mieux grâce à CUA

Nous avons déjà l’agent OpenAI AI. Il s’appelle Operator et c’est un système capable de voir notre écran et d’effectuer des actions de manière autonome dans le navigateur en fonction de nos demandes. C’est quelque chose que nous avions déjà vu avec ‘Computer Use’ d’Anthropic ou Mariner de DeepMind, mais ici la société dirigée par Sam Altman a son propre ingrédient spécial.

Agent utilisant un ordinateur (CUA). L’opérateur utilise un modèle appelé Computer-Using Agent (CUA) qui est basé sur GPT-4o. CUA interprète les captures d’écran et interagit avec les sites Web via les commandes typiques du navigateur, telles qu’un curseur ou une souris.

Comment fonctionne l’AUC. Comme expliqué dans la documentation OpenAI, ce système traite les « pixels bruts » des captures qu’il effectue et utilise une souris et un clavier virtuel pour effectuer ses actions. Une fois en possession de la capture d’écran, il « raisonne » et suit une ligne de « réflexion » dans laquelle il prend en compte les actions passées pour s’adapter.

Des performances prometteuses. Il existe plusieurs benchmarks puisqu’ils permettent d’évaluer la capacité de ces modèles agentiques. Selon les tests effectués en interne chez OpenAI, CUA atteint 38,1 % de performances dans OSWorld (utilisation générale de l’ordinateur) par rapport à des plateformes comme Anthropic, qui atteint 22 %. Les humains, cependant, obtiennent une moyenne de 72,4 %, ce qui montre clairement que ces systèmes ont encore beaucoup à faire. En utilisation navigateur, les benchmarks WebArena et WebVoyager permettent également à Operator d’obtenir des scores très élevés : respectivement 58,1% et 87%, contre 36,2% et 56% pour ses concurrents.

Capture d'écran 2025 01 24 Au 10 06 53
Capture d'écran 2025 01 24 Au 10 06 53

Les performances de l’opérateur sont actuellement supérieures à celles de ses concurrents selon les tests internes de l’entreprise. Source : OpenAI

Qu’arrive-t-il aux captures d’écran collectées par l’opérateur ?. L’opérateur prend continuellement des captures d’écran pour « voir » l’interface du navigateur avec laquelle il interagit. Ce navigateur ne s’exécute pas sur notre PC, mais dans un navigateur distant sur les serveurs d’OpenAI. Les données utilisateur, y compris ces captures d’écran, sont utilisées conformément à la politique de confidentialité d’OpenAI. Autrement dit : ils peuvent être utilisés pour détecter des activités frauduleuses et pour améliorer le service. Cela signifie que nos données peuvent être utilisées pour entraîner et améliorer le modèle, bien que nous puissions désactiver cette option dans les paramètres de l’opérateur. L’utilisateur a cependant la possibilité de déterminer la durée pendant laquelle ces données sont stockées dans Operator. Par défaut, ces données sont enregistrées jusqu’à ce que l’utilisateur décide de les supprimer.

Un agent qui demande de l’aide (et une confirmation) lorsque vous en avez besoin. Comme nous l’avons vu dans d’autres agents tels que « Computer Use » d’Anthropic, Operator est un agent qui n’agit pas comme un fou. S’il rencontre un obstacle – comme un code CAPTCHA ou la demande de saisie d’un nom d’utilisateur et d’un mot de passe sur un site Web – il demandera à l’utilisateur de prendre le contrôle, et demandera également la confirmation finale de l’utilisateur si, par exemple, nous devons valider une réservation ou un achat d’un produit que l’Opérateur a recherché pour nous. L’utilisateur Opérateur peut également prendre le contrôle à tout moment.

Capture d'écran 2025 01 24 Au 9 28 33
Capture d'écran 2025 01 24 Au 9 28 33

C’est ainsi que fonctionne la CUA. Source : OpenAI

Ne lâche pas tes mains du volant. Cela nous rappelle les systèmes de conduite assistée comme le FSD de Tesla. Il est vrai qu’il est capable de nous emmener d’un endroit à un autre une fois que l’on saisit l’adresse de destination, mais il est important de continuer à être attentif et de garder les mains sur le volant au cas où des événements imprévus se produiraient. Quelque chose de similaire se produit avec Operator et le reste des agents de ce type.

Il y a des choses que tu ne peux pas faire. L’opérateur n’est actuellement pas en mesure d’effectuer des tâches spécialisées telles que la gestion de systèmes de calendrier complexes ou l’interaction avec des sites Web hautement personnalisés ou non standard. Il refusera également d’accomplir certaines tâches présentant un risque élevé de préjudice. Par exemple, envoyer des e-mails, effectuer des transactions électroniques ou supprimer des événements de calendrier. Ses fonctionnalités et capacités augmenteront sans aucun doute, mais elles le feront progressivement et en garantissant toujours que la possibilité d’erreur est la plus faible possible.

Images | OpenAI

À Simseo | L’IA générative semble stagner. Les Big Tech pensent avoir un atout dans leur manche : des « agents » qui font des choses pour nous