Les mots prouvent leur valeur comme outils pédagogiques pour les robots

Les chercheurs de Princeton ont découvert que les descriptions d’outils en langage humain peuvent accélérer l’apprentissage d’un levage de bras robotique simulé et de l’utilisation d’une variété d’outils. Crédit : Neil Adelantar

En explorant une nouvelle façon d’enseigner aux robots, les chercheurs de Princeton ont découvert que les descriptions d’outils en langage humain peuvent accélérer l’apprentissage d’un levage de bras robotique simulé et de l’utilisation d’une variété d’outils.

Les résultats s’appuient sur des preuves que la fourniture d’informations plus riches pendant la formation à l’intelligence artificielle (IA) peut rendre les robots autonomes plus adaptables à de nouvelles situations, améliorant ainsi leur sécurité et leur efficacité.

L’ajout de descriptions de la forme et de la fonction d’un outil au processus de formation du robot a amélioré la capacité du robot à manipuler des outils nouvellement rencontrés qui ne figuraient pas dans l’ensemble de formation d’origine. Une équipe d’ingénieurs en mécanique et d’informaticiens a présenté la nouvelle méthode, Accelerated Learning of Tool Manipulation with LANguage, ou ATLA, lors de la conférence sur l’apprentissage par robot le 14 décembre.

Les bras robotiques ont un grand potentiel pour aider à effectuer des tâches répétitives ou difficiles, mais il est difficile de former des robots à manipuler efficacement des outils : les outils ont une grande variété de formes, et la dextérité et la vision d’un robot ne font pas le poids face à celles d’un humain.

« Des informations supplémentaires sous forme de langage peuvent aider un robot à apprendre à utiliser les outils plus rapidement », a déclaré le co-auteur de l’étude Anirudha Majumdar, professeur adjoint d’ingénierie mécanique et aérospatiale à Princeton qui dirige l’Intelligent Robot Motion Lab.

L’équipe a obtenu des descriptions d’outils en interrogeant GPT-3, un grand modèle de langage publié par OpenAI en 2020 qui utilise une forme d’IA appelée apprentissage en profondeur pour générer du texte en réponse à une invite. Après avoir expérimenté diverses invites, ils ont décidé d’utiliser « Décrire le [feature] de [tool] dans une réponse détaillée et scientifique », où la caractéristique était la forme ou le but de l’outil.

« Parce que ces modèles de langage ont été formés sur Internet, dans un certain sens, vous pouvez considérer cela comme une manière différente de récupérer ces informations », plus efficacement et de manière plus complète que d’utiliser le crowdsourcing ou de gratter des sites Web spécifiques pour les descriptions d’outils, a déclaré Karthik Narasimhan, un professeur adjoint d’informatique et co-auteur de l’étude. Narasimhan est l’un des principaux membres du corps professoral du groupe de traitement du langage naturel (PNL) de Princeton et a contribué au modèle de langage GPT original en tant que chercheur invité à OpenAI.

Ce travail est la première collaboration entre les groupes de recherche de Narasimhan et de Majumdar. Majumdar se concentre sur le développement de politiques basées sur l’IA pour aider les robots, y compris les robots volants et marcheurs, à généraliser leurs fonctions à de nouveaux paramètres, et il était curieux du potentiel des récents « progrès massifs dans le traitement du langage naturel » au profit de l’apprentissage des robots, a-t-il déclaré.

Pour leurs expériences d’apprentissage de robots simulés, l’équipe a sélectionné un ensemble de formation de 27 outils, allant d’une hache à une raclette. Ils ont confié au bras robotique quatre tâches différentes : pousser l’outil, soulever l’outil, l’utiliser pour balayer un cylindre le long d’une table ou enfoncer une cheville dans un trou. Les chercheurs ont développé une suite de politiques utilisant des approches de formation par apprentissage automatique avec et sans informations linguistiques, puis ont comparé les performances des politiques sur un ensemble de tests distinct de neuf outils avec des descriptions appariées.

Cette approche est connue sous le nom de méta-apprentissage, puisque le robot améliore sa capacité à apprendre à chaque tâche successive. Il ne s’agit pas seulement d’apprendre à utiliser chaque outil, mais aussi « d’essayer d’apprendre à comprendre les descriptions de chacun de ces cent outils différents, donc quand il voit le 101e outil, il est plus rapide d’apprendre à utiliser le nouvel outil », a déclaré Narasimhan. « Nous faisons deux choses : nous enseignons au robot comment utiliser les outils, mais nous lui apprenons également l’anglais. »

Les chercheurs ont mesuré le succès du robot à pousser, soulever, balayer et marteler avec les neuf outils de test, en comparant les résultats obtenus avec les politiques qui utilisaient le langage dans le processus d’apprentissage automatique à celles qui n’utilisaient pas les informations linguistiques. Dans la plupart des cas, les informations linguistiques offraient des avantages significatifs pour la capacité du robot à utiliser de nouveaux outils.

Une tâche qui a montré des différences notables entre les politiques consistait à utiliser un pied-de-biche pour balayer un cylindre ou une bouteille le long d’une table, a déclaré Allen Z. Ren, titulaire d’un doctorat. étudiant dans le groupe de Majumdar et auteur principal du document de recherche.

« Avec la formation linguistique, il apprend à saisir l’extrémité longue du pied de biche et à utiliser la surface incurvée pour mieux contraindre le mouvement de la bouteille », a déclaré Ren. « Sans la langue, il a saisi le pied de biche près de la surface incurvée et c’était plus difficile à contrôler. »

La recherche fait partie d’un projet plus vaste du groupe de recherche de Majumdar visant à améliorer la capacité des robots à fonctionner dans de nouvelles situations qui diffèrent de leurs environnements de formation.

« L’objectif général est de généraliser les systèmes robotiques – en particulier ceux qui sont formés à l’aide de l’apprentissage automatique – à de nouveaux environnements », a déclaré Majumdar. » D’autres travaux de son groupe ont porté sur prédiction de panne pour le contrôle de robot basé sur la vision, et a utilisé un « génération d’environnement contradictoire » approche pour aider les politiques de robots à mieux fonctionner dans des conditions extérieures à leur formation initiale.

L’article, « Tirer parti du langage pour un apprentissage accéléré de la manipulation d’outils », a été présenté le 14 décembre à la Conférence sur l’apprentissage robotique. Outre Majumdar, Narasimhan et Ren, les coauteurs incluent Bharat Govil, récemment diplômé de Princeton, et Tsung-Yen Yang, qui a obtenu un doctorat. en génie électrique à Princeton cette année et est maintenant scientifique en apprentissage automatique chez Meta Platforms Inc.

Fourni par l’Université de Princeton