Des chercheurs développent l’IA pour rendre Internet plus accessible

Dans le but de rendre Internet plus accessible aux personnes handicapées, des chercheurs de l’Ohio State University ont commencé à développer un agent d’intelligence artificielle capable d’effectuer des tâches complexes sur n’importe quel site Web à l’aide de commandes linguistiques simples.

Au cours des trois décennies qui ont suivi sa première diffusion dans le domaine public, le World Wide Web est devenu un système dynamique incroyablement complexe. Cependant, comme la fonction Internet fait désormais partie intégrante du bien-être de la société, sa complexité rend également sa navigation considérablement plus difficile.

Il existe aujourd’hui des milliards de sites Web permettant d’accéder à des informations ou de communiquer avec d’autres personnes, et de nombreuses tâches sur Internet peuvent nécessiter plus d’une douzaine d’étapes. C’est pourquoi Yu Su, co-auteur de l’étude et professeur adjoint d’informatique et d’ingénierie à l’Ohio State, a déclaré que leurs travaux, qui utilisent des informations extraites de sites en direct pour créer des agents Web (des assistants d’IA en ligne), constituent une étape vers la création d’agents Web. le monde numérique est un endroit moins déroutant.

« Pour certaines personnes, notamment celles handicapées, il n’est pas facile de naviguer sur Internet », a déclaré Su. « Nous dépendons de plus en plus du monde informatique dans notre vie quotidienne et dans notre travail, mais il existe de plus en plus d’obstacles à cet accès, ce qui, dans une certaine mesure, élargit la disparité. »

L’étude a été présentée en décembre lors de la trente-septième conférence sur les systèmes de traitement de l’information neuronale (NeurIPS), une conférence phare pour la recherche sur l’IA et l’apprentissage automatique. Il est disponible sur le arXiv serveur de préimpression.

En tirant parti de la puissance de grands modèles de langage, l’agent fonctionne de la même manière que les humains se comportent lorsqu’ils naviguent sur le Web, a déclaré Su. L’équipe de l’Ohio State a montré que son modèle était capable de comprendre la présentation et les fonctionnalités de différents sites Web en utilisant uniquement sa capacité à traiter et à prédire le langage.

Les chercheurs ont lancé le processus en créant Mind2Web, le premier ensemble de données destiné aux agents Web généralistes. Bien que les efforts précédents visant à créer des agents Web se soient concentrés sur des sites Web simulés par des jouets, Mind2Web embrasse pleinement la nature complexe et dynamique des sites Web du monde réel et met l’accent sur la capacité d’un agent à généraliser à des sites Web entièrement nouveaux qu’il n’a jamais vus auparavant.

Su a déclaré qu’une grande partie de leur succès est due à la capacité de leur agent à gérer la courbe d’apprentissage en constante évolution d’Internet. L’équipe a récupéré plus de 2 000 tâches ouvertes sur 137 sites Web réels différents, qu’elle a ensuite utilisés pour former l’agent.

Certaines des tâches comprenaient la réservation de vols internationaux aller simple et aller-retour, le suivi de comptes de célébrités sur Twitter, la navigation dans des films comiques de 1992 à 2017 en streaming sur Netflix et même la planification de tests de connaissances automobiles au DMV. De nombreuses tâches étaient très complexes : par exemple, réserver l’un des vols internationaux utilisés dans le modèle nécessiterait 14 actions. Une telle polyvalence sans effort permet une couverture diversifiée sur un certain nombre de sites Web et ouvre un nouveau paysage que les futurs modèles pourront explorer et apprendre de manière autonome, a déclaré Su.

« Il n’est devenu possible de faire quelque chose comme ça que grâce au développement récent de grands modèles de langage comme ChatGPT », a déclaré Su. Depuis que le chatbot est devenu public en novembre 2022, des millions d’utilisateurs l’ont utilisé pour générer automatiquement du contenu, de la poésie et des blagues aux conseils culinaires et aux diagnostics médicaux.

Néanmoins, étant donné qu’un site Web peut contenir des milliers d’éléments HTML bruts, il serait trop coûteux de transmettre autant d’informations à un seul grand modèle de langage. Pour combler cette lacune, l’étude introduit également un cadre appelé MindAct, un agent à deux volets qui utilise à la fois des modèles de langage petits et grands pour effectuer ces tâches. L’équipe a constaté qu’en utilisant cette stratégie, MindAct surpasse considérablement les autres stratégies de modélisation courantes et est capable de comprendre divers concepts à un niveau décent.

Avec des réglages plus précis, souligne l’étude, le modèle pourrait probablement être utilisé en tandem avec des modèles de langages volumineux à source ouverte et fermée tels que Flan-T5 ou GPT-4. Cependant, leurs travaux mettent en évidence un problème éthique de plus en plus pertinent dans la création d’une intelligence artificielle flexible, a déclaré Su. Bien qu’il puisse certainement servir d’agent utile aux humains qui surfent sur le Web, le modèle pourrait également être utilisé pour améliorer des systèmes tels que ChatGPT et transformer l’ensemble d’Internet en un outil d’une puissance sans précédent, a déclaré Su.

« D’une part, nous avons un grand potentiel pour améliorer notre efficacité et nous permettre de nous concentrer sur la partie la plus créative de notre travail », a-t-il déclaré. « Mais d’un autre côté, il existe un énorme potentiel de préjudice. » Par exemple, des agents autonomes capables de traduire les étapes en ligne dans le monde réel pourraient influencer la société en prenant des mesures potentiellement dangereuses, comme l’utilisation abusive d’informations financières ou la diffusion de fausses informations.

« Nous devons être extrêmement prudents à l’égard de ces facteurs et faire un effort concerté pour tenter de les atténuer », a déclaré Su. Mais à mesure que la recherche sur l’IA continue d’évoluer, il note qu’il est probable que la société connaîtra une croissance importante de l’utilisation commerciale et des performances des agents Web généralistes dans les années à venir, d’autant plus que la technologie a déjà gagné en popularité aux yeux du public.

« Tout au long de ma carrière, mon objectif a toujours été d’essayer de combler le fossé entre les utilisateurs humains et le monde informatique », a déclaré Su. « Cela dit, la véritable valeur de cet outil est qu’il permettra réellement aux gens de gagner du temps et de rendre possible l’impossible. »