Une approche informatique pourrait enseigner en continu de nouvelles compétences aux robots via le dialogue

Bien que les roboticiens aient introduit des systèmes robotiques de plus en plus sophistiqués au cours des dernières décennies, la plupart des solutions introduites jusqu'à présent sont préprogrammées et entraînées pour s'attaquer à des tâches spécifiques. La capacité d'enseigner en continu de nouvelles compétences aux robots tout en interagissant avec eux pourrait s'avérer très bénéfique et faciliter leur utilisation à grande échelle.

Des chercheurs de l'Université d'État de l'Arizona (ASU) ont récemment développé une nouvelle approche informatique qui pourrait permettre aux utilisateurs de former en continu des robots à de nouvelles tâches via des interactions basées sur le dialogue. Cette approche, présentée dans un article publié sur le site arXiv Le serveur de préimpression a été initialement utilisé pour apprendre à un manipulateur robotique comment préparer avec succès un sandwich froid.

« Notre objectif est de contribuer au déploiement de robots dans les foyers, capables d'apprendre à cuisiner des repas froids », a déclaré à Tech Xplore Nakul Gopalan, auteur principal de l'étude. « Nous voulons y parvenir du point de vue de l'utilisateur, en comprenant les comportements que les gens attendent d'un robot domestique.

« Cette perspective utilisateur nous a conduit à utiliser le langage et le dialogue pour communiquer avec les robots. Malheureusement, ces robots ne savent peut-être pas tout, comme par exemple comment vous faire cuire des pâtes. »

L’objectif principal des travaux récents de Gopalan et de ses collègues était de concevoir une méthode qui permettrait aux robots d’acquérir rapidement des compétences ou des comportements jusque-là inconnus des agents humains.

Dans un article précédent, présenté à la conférence de l'AAAI sur l'intelligence artificielle, l'équipe s'est concentrée sur l'apprentissage de robots pour effectuer des tâches visuelles via des interactions basées sur le dialogue. Leur nouvelle étude s'appuie sur cet effort précédent, en introduisant une méthode plus complète pour l'apprentissage de robots basé sur le dialogue.

« Notre objectif est d'améliorer l'applicabilité des robots en permettant aux utilisateurs de personnaliser leurs robots », a déclaré Weiwei Gu, co-auteur de l'article, à Tech Xplore. « Comme les robots doivent effectuer différentes tâches pour différents utilisateurs et que l'exécution de ces tâches nécessite des compétences différentes, il est impossible pour les fabricants de pré-former les robots avec toutes les compétences dont ils ont besoin pour tous ces scénarios. Par conséquent, les robots doivent acquérir ces compétences et les connaissances pertinentes pour les tâches auprès des utilisateurs. »

Pour garantir qu’un robot puisse acquérir efficacement de nouvelles compétences auprès des utilisateurs, l’équipe a dû relever plusieurs défis. Tout d’abord, il fallait s’assurer que les utilisateurs humains étaient impliqués dans l’apprentissage d’un robot et que le robot exprimait ses doutes ou demandait des informations supplémentaires de manière compréhensible pour les utilisateurs non experts.

« Deuxièmement, le robot doit acquérir des connaissances à partir de quelques interactions seulement avec les utilisateurs, car ces derniers ne peuvent pas rester coincés avec le robot pendant une durée infinie », a déclaré Gu. « Enfin, le robot ne doit oublier aucune connaissance préexistante malgré l'acquisition de nouvelles connaissances. »

Gopalan, Gu et leurs collègues Suresh Kondepudi et Lixiao Huang ont entrepris de répondre collectivement à toutes ces exigences d'apprentissage continu. Le système d'apprentissage continu interactif qu'ils proposent aborde ces trois sous-tâches via trois composants distincts.

Une approche pour enseigner en continu de nouvelles compétences aux robots via des dialogues

« Tout d'abord, un système de dialogue basé sur un modèle de langage étendu (LLM) pose des questions aux utilisateurs pour acquérir les connaissances qu'ils pourraient ne pas avoir ou pour continuer à interagir avec les gens », explique Gopalan. « Cependant, comment le robot sait-il qu'il ne sait pas quelque chose ?

« Pour résoudre ce problème, nous avons formé un deuxième composant sur une bibliothèque de compétences robotiques et avons appris leurs correspondances avec les commandes linguistiques. Si une compétence demandée n'est pas proche du langage que le robot connaît déjà, il demande une démonstration. »

Le système récemment développé par l'équipe comprend également un mécanisme qui permet aux robots de comprendre quand les humains montrent comment accomplir une tâche. Si les démonstrations fournies sont insuffisantes et que les robots n'ont pas encore acquis une compétence de manière fiable, le module permet aux robots d'en demander d'autres.

« Nous avons utilisé conjointement des représentations de compétences et des représentations linguistiques pour modéliser la connaissance d'une compétence par les robots », a déclaré Gu. « Lorsque le robot doit exécuter une compétence, il estime d'abord s'il possède la capacité d'exécuter directement la compétence en comparant les représentations linguistiques de la compétence et celles de toutes les compétences que possède le robot.

« Le robot exécute directement la compétence s'il est sûr de pouvoir le faire. Sinon, il demande à l'utilisateur de démontrer la compétence en l'exécutant lui-même devant les robots. »

Essentiellement, après qu’un robot observe un utilisateur accomplir une tâche spécifique, le système de l’équipe détermine qu’il possède déjà les compétences nécessaires pour l’accomplir, sur la base des informations visuelles recueillies.

Si le système prédit que le robot n'a pas encore acquis la nouvelle compétence, le robot demandera à l'utilisateur de délimiter les trajectoires du robot associées à l'aide d'une télécommande, afin qu'il puisse les ajouter à sa bibliothèque de compétences et effectuer la même tâche de manière indépendante à l'avenir.

« Nous connectons ces représentations de compétences avec un LLM pour permettre au robot d'exprimer ses doutes, afin que même les utilisateurs non experts puissent comprendre les exigences du robot et aider en conséquence », a déclaré Gu.

Le deuxième module du système est basé sur des transformateurs de découpage d'actions (ACT) pré-entraînés et affinés avec adaptation de bas rang (LoRA). Enfin, l'équipe a développé un module d'apprentissage continu qui permet à un robot d'ajouter en permanence de nouvelles compétences à sa bibliothèque de compétences.

« Une fois que le robot a été pré-entraîné avec certaines compétences présélectionnées, la majorité des poids du réseau neuronal sont fixés, et seule une petite partie des poids introduits par l'adaptation de rang bas est utilisée pour apprendre de nouvelles compétences aux robots », a déclaré Gu. « Nous avons constaté que notre algorithme était capable d'apprendre de nouvelles compétences de manière efficace sans oublier de manière catastrophique une compétence préexistante. »

Les chercheurs ont évalué leur système d’apprentissage en boucle fermée dans le cadre d’une série de tests en conditions réelles, en l’appliquant à un manipulateur robotique Franka FR3. Ce robot a interagi avec huit utilisateurs humains et a progressivement appris à s’attaquer à une tâche simple du quotidien, à savoir préparer un sandwich.

« Le fait que nous puissions démontrer une approche de formation en boucle fermée avec dialogue avec de vrais utilisateurs est impressionnant en soi », a déclaré Gopalan. « Nous montrons que le robot peut préparer des sandwichs grâce aux leçons des utilisateurs qui sont venus dans notre laboratoire. »

Les premiers résultats obtenus par les chercheurs se sont révélés très prometteurs, puisque le composant ACT-LORA a permis d'acquérir de nouvelles compétences perfectionnées avec une précision de 100 % après seulement cinq démonstrations humaines. De plus, le modèle a conservé une précision de 74,75 % sur les compétences pré-entraînées, surpassant ainsi d'autres modèles similaires.

« Nous sommes très heureux que le système robotique que nous avons conçu ait pu fonctionner avec de vrais utilisateurs, car il laisse entrevoir un avenir prometteur pour les applications robotiques réelles dans ce domaine », a déclaré Gu. « Cependant, nous pensons qu'il est possible d'améliorer l'efficacité de la communication d'un tel système. »

Bien que le système d'apprentissage nouvellement développé ait donné de bons résultats lors des expériences menées par l'équipe, il présente également certaines limites. Par exemple, l'équipe a constaté qu'il ne pouvait pas prendre en charge la prise de parole à tour de rôle entre les robots et les utilisateurs humains. Elle a donc dû compter sur les chercheurs pour déterminer à qui revenait le tour d'effectuer la tâche en cours.

« Bien que nos résultats nous aient enthousiasmés, nous avons également constaté que le robot met du temps à apprendre et que cela peut être irritant pour les utilisateurs », a déclaré Gopalan. « Nous devons encore trouver des mécanismes pour accélérer ce processus, ce qui constitue un problème essentiel de l'apprentissage automatique que nous avons l'intention de résoudre prochainement.

« Nous voulons que ce travail soit mené dans les foyers pour des expériences réelles, afin que nous sachions où se situent les défis liés à l'utilisation de robots dans une situation de soins à domicile. »

Le système développé par Gu, Gopalan et ses collègues pourrait bientôt être amélioré et testé sur un plus large éventail de tâches culinaires. Les chercheurs s'efforcent actuellement de résoudre les problèmes de rotation observés et d'élargir l'éventail de plats que les utilisateurs peuvent apprendre aux robots à cuisiner. Ils prévoient également de mener d'autres expériences impliquant un plus grand nombre de participants humains.

« Le problème de la prise de parole est un problème intéressant dans les interactions naturelles », a ajouté Gu. « Ce problème de recherche a également de fortes implications en termes d'application sur les robots domestiques interactifs.

« En plus de résoudre ce problème, nous souhaitons accroître la taille de ce travail en introduisant davantage de tâches différentes et en expérimentant notre système avec des utilisateurs issus de données démographiques réelles. »