Opérateur d'Openai, ce que c'est et comment l'agent qui effectue les devoirs sur le Web fonctionne indépendamment

OUparneur est la dernière nouveauté de Openai. Lancé le 23 janvier, l’opérateur est un Agent capable d’aller sur le Web pour effectuer ses devoirs pour nous. En utilisant votre navigateur, peut montre une page Web et interagir avec elle en tapant, en cliquant et en faisant défiler. Actuellement, il s’agit d’un aperçu de recherche, ce qui signifie qu’il a des limites et qu’il évoluera en fonction des commentaires des utilisateurs.

L’opérateur est déjà disponible pour les clients professionnels mais uniquement aux États-Unis (au coût de 200 euros par mois). Cet aperçu de la recherche vous permet d’apprendre des utilisateurs et de l’écosystème plus large, de perfectionner et de s’améliorer progressivement. Le plan prévoit d’étendre le service aux abonnés De plus, l’équipe et l’entreprise et pour intégrer ses fonctionnalités Chatgpt à l’avenir.

Opérateur, ce que c’est

L’opérateur est l’un des premiers agents d’Openai. Tu peux lui demander de Gérez un large éventail d’activités de navigateur répétitives, comment remplir des modules, commander des achats et même créer un mème. La possibilité d’utiliser les mêmes interfaces et les mêmes outils avec lesquels les humains interagissent quotidiennement élargissent l’utilité de l’IA, aidant les gens à gagner du temps dans les activités quotidiennes et à ouvrir de nouvelles opportunités d’implication pour les entreprises.

Comment fonctionne l’opérateur

L’opérateur est basé sur un nouveau modèle appelé Agent à axe d’ordinateur (CUA). Combiner les compétences visuelles de GPT-4O Avec un raisonnement avancé par l’apprentissage par renforcement, CUA est formé pour interagir avec les interfaces graphiques (GUI) – les boutons, les menus et les champs de texte que les gens voient sur un écran.
L’opérateur peut « voir » (à travers les écrans) et « interagir« (En utilisant toutes les actions autorisées par la souris et le clavier) avec un navigateur, lui permettant d’agir sur le Web sans nécessiter d’ajouts API personnalisés.
Si vous rencontrez des difficultés ou faites des erreurs, l’opérateur peut profiter de ses compétences de raisonnement pour l’auto-configuration. Lors du blocage et a besoin d’aide, il renvoie simplement le contrôle à l’utilisateur, garantissant une expérience fluide et collaborative.
Bien que CUA soit toujours dans la phase initiale et présente des limites, il a établi de nouveaux résultats de référence de coupe Webarena Et Webvoyagerdeux référence fondamentale pour l’utilisation du navigateur.

OpenAI affirme que l’opérateur dépasse des outils de concurrence similaires, notamment Utiliser l’ordinateur De Anthropique (Une version de Claude 3.5 Sonnet capable de effectuer des tâches simples sur un ordinateur) E Marin De Google Deepmindun agent de navigation Web construit sur la base de Gemini 2.0.

Comme l’utilisation d’ordinateurs et Mariner, opérateur Prend les écrans d’un ordinateur et analyse les pixels pour comprendre quelles actions peuvent entreprendre. CUA examine l’écran, effectue une action, l’examine à nouveau, effectue une autre action et ainsi de suite. De cette façon, le modèle est en mesure d’effectuer des activités sur la plupart des sites Web qu’une personne peut utiliser.

CUA divise les devoirs en phases plus petites et essaie de les résoudre un par un, en remontant lors du blocage. OpenII dit que CUA a été formé avec des techniques similaires à celles utilisées pour ses « modèles de raisonnement », O1 et O3.

Le fait que trois des IA les plus importantes des sociétés mondiales convergent la même vision de ce qui pourrait être les modèles basés sur les agents indique que la bataille pour la suprématie de l’IA a un nouveau front: les écrans de nos ordinateurs.

« Traditionnellement, la façon dont les modèles utilisent le logiciel se fait par le biais d’abeilles spécialisées », dit-il Reiichiro NakanoScientifique d’Openai. Cela met de nombreuses applications et la plupart des sites Web. « Mais si vous créez un modèle capable d’utiliser la même interface que les humains utilisent quotidiennement – explique Nakano – une toute nouvelle gamme de logiciels s’ouvre qui était auparavant inaccessible ».

Opérateur, comment il est utilisé

Pour commencer, c’est suffisant pour décrire l’activité qu’elle a lieu Et l’opérateur s’occupera du reste. Les utilisateurs peuvent choisir de prendre le contrôle du navigateur distant à tout moment et l’opérateur est formé pour demander de manière proactive à l’utilisateur de prendre le contrôle des activités qui nécessitent une connexion, des données de paiement ou une résolution captiver.
Les utilisateurs peuvent personnaliser leurs flux de travail d’opérateur en ajoutant des instructions personnalisées, pour tous les sites ou pour des sites spécifiques, tels que la définition des préférences pour les compagnies aériennes sur Booking.com. L’opérateur permet aux utilisateurs d’économiser les instructions pour un accès rapide à la page d’accueil, idéal pour des activités répétées telles que le ravitaillement des aliments sur Instacart.

De façon similaire à l’utilisation de plusieurs cartes dans un navigateur, les utilisateurs peuvent avoir plus d’activités effectuer des opérateurs simultanément en créant de nouvelles conversations; OpenII apporte des exemples pour commander une tasse d’émail personnalisée sur Etsy et réserver simultanément un camping sur hipcamp.

Opérateur, à quoi sert-il

L’opérateur transforme l’intelligence artificielle De l’outil passif à un participant actif dans l’écosystème numérique. Il simplifiera les activités pour les utilisateurs et apportera les avantages des agents aux entreprises qui souhaitent des expériences innovantes pour les clients et souhaitent des taux de conversion plus élevés.

OpenII collabore avec des entreprises comme Doordash, Instacart, Oppeable, Priceline, StubHub, Thumbtack, Uber Et d’autres pour s’assurer que l’opérateur répond aux besoins du monde réel, en respectant les règles consolidées.

En plus de ces collaborations, il existe un grand potentiel pour améliorer l’accessibilité et l’efficacité de certains flux de travail, en particulier dans les applications du secteur public. Pour explorer davantage ces cas d’utilisation, OpenAI travaille avec des organisations – comme la ville de Stockton – pour faciliter l’enregistrement des services et des programmes.

« Alors que nous apprenons à mieux connaître l’opérateur lors de son aperçu de la recherche, nous serons mieux équipés pour identifier les façons dont l’IA peut faciliter l’engagement civique pour nos résidents », a-t-il déclaré Jamil Niazidirecteur des technologies de l’information de la ville de Stockton.
Libérer l’opérateur à un public initialement limité, Openai vise à apprendre rapidement et à perfectionner ses compétences en fonction des commentaires du monde réel, en s’assurant qu’elle équilibre l’innovation avec confiance et sécurité. Cette approche collaborative contribue à garantir que l’opérateur offre une valeur significative aux utilisateurs, aux créateurs, aux entreprises et aux organisations du secteur public.

En tant qu’opérateur testé Openai

OpenII a testé CUA en ce qui concerne une série de référence industrielle conçue pour évaluer la capacité d’un agent à effectuer des tâches sur un ordinateur.

Par exemple, dans Osworldqui vérifie la capacité d’un agent à effectuer des tâches telles que l’Union des fichiers PDF ou la manipulation d’une image, CUA obtient un score de 38,1% Comparé à 22,0% d’utilisation d’ordinateurs. Sur une référence appelée Webvoyagerqui vérifie la capacité d’un agent à effectuer ses devoirs dans un navigateur, CUA obtient 87%Mariner 83,5% et les ordinateurs utilisent 56%. Il faut dire, cependant, que Mariner ne peut effectuer des activités que dans un navigateur et ne reçoit donc pas de score sur OSWORLD.

Pour l’instant, même opérateur ne peut effectuer que des activités dans un navigateur. OpenAI prévoit de rendre les compétences plus larges de CUA à l’avenir via une API que d’autres développeurs pourront utiliser pour créer leurs propres applications. C’est ainsi qu’Anthropic a publié un ordinateur d’utilisation en décembre.

Sécurité et confidentialité avec l’opérateur

Pour s’assurer que l’opérateur est sûr à utiliser, trois niveaux de protection ont été créés, pour prévenir les abus et s’assurer que les utilisateurs ont un contrôle total.
Premièrement, l’opérateur est formé pour s’assurer que la personne qui l’utilise a toujours le contrôle et demande une entrée dans les points critiques.

Mode d’acquisition: l’opérateur demande à l’utilisateur de prendre le contrôle lors de l’insertion d’informations sensibles dans le navigateur, telles que les informations d’accès ou les informations de paiement. Lorsqu’il est en mode acquisition, l’opérateur ne collecte ni capture d’écran les informations saisies par l’utilisateur.
Confirmations de l’utilisateur: Avant de finaliser toute action significative, comme l’envoi d’une commande ou d’un e-mail, l’opérateur doit demander l’approbation.
Limites des activités: L’opérateur est formé pour refuser certaines activités sensibles, telles que les transactions bancaires ou celles qui nécessitent des décisions à risque élevé, telles que la décision sur une demande d’emploi.
Méthode de contrôle: Sur des sites particulièrement sensibles, tels que les services E-Mail ou Financial, l’opérateur nécessite une supervision étroite de ses actions, permettant aux utilisateurs de saisir directement toute erreur.
La gestion de la confidentialité des données sur les travaux a été simplifiée.
Formation de désactivation: En désactivant l’article « améliore le modèle pour tout le monde » dans les paramètres de Chatgpt, les données sur l’opérateur ne seront pas utilisées pour former nos modèles.
Gestion transparente des données: les utilisateurs peuvent supprimer toutes les données de navigation et se déconnecter de tous les sites en un seul clic dans la section Confidentialité Paramètres de l’opérateur. Les conversations opérationnelles peuvent également être supprimées en un seul clic.
Enfin, des défenses ont été faites contre des sites Web adverses qui peuvent essayer de tromper l’opérateur grâce à des invites cachées, à un code malin ou à des tentatives phishing:
Navigation prudente: l’opérateur est conçu pour détecter et ignorer les messages.
Suivi: Un «modèle de surveillance» dédié observe un comportement suspect et peut suspendre l’activité si quelque chose ne semble pas fonctionner.
Pipeline d’enquête: les processus de révision automatisés et humains identifient en permanence de nouvelles menaces et mettent rapidement à jour les protections.

Puisque les assaillants pourraient essayer de maltraiter cette technologie, L’opérateur a été conçu pour refuser les demandes nocives et bloquer le contenu non autorisé. Les systèmes de modération peuvent émettre des avertissements ou même révoquer l’accès en cas de violations répétées; De plus, d’autres processus d’examen ont été intégrés pour identifier et résoudre les abus.
Bien que l’opérateur ait été conçu avec ces garanties, aucun système n’est impeccable et il s’agit toujours d’un aperçu de la recherche; OpenAI s’engage à s’améliorer en continu grâce à la rétroaction du monde réel et aux tests rigoureux.

Limites

L’opérateur est actuellement dans une phase de recherche initiale et, bien qu’il soit déjà en mesure de gérer un large éventail de tâches, il apprend toujours, évolue et Cela peut faire des erreurs. Par exemple, il rencontre actuellement des difficultés avec des interfaces complexes telles que la création de diaporamas ou la gestion des calendriers. Les commentaires des premiers utilisateurs joueront un rôle fondamental dans l’amélioration de sa précision, de sa fiabilité et de sa sécurité, nous aidant à faire un meilleur opérateur pour tout le monde

La prochaine étape

CUA dans l’API: OpenAI prévoit d’exposer le modèle qui alimente l’opérateur, CUA, dans l’API, afin que les développeurs puissent l’utiliser pour créer leurs agents qui utilisent l’ordinateur.
OpenII continuera d’améliorer la capacité de l’opérateur à gérer les flux de travail plus longs et plus complexes.