Utiliser de grands modèles de langage pour permettre une navigation robotique en monde ouvert, interactive et personnalisée

Utiliser de grands modèles de langage pour permettre une navigation robotique en monde ouvert, interactive et personnalisée

Les robots devraient idéalement interagir avec les utilisateurs et les objets dans leur environnement de manière flexible, plutôt que de toujours s’en tenir aux mêmes ensembles de réponses et d’actions. Une approche robotique visant à atteindre cet objectif et qui a récemment retenu l’attention des chercheurs est la navigation d’objets à tir nul (ZSON).

ZSON implique le développement de techniques informatiques avancées qui permettent aux agents robotiques de naviguer dans des environnements inconnus, d’interagir avec des objets auparavant invisibles et de répondre à un large éventail d’invites. Bien que certaines de ces techniques aient donné des résultats prometteurs, elles permettent souvent aux robots uniquement de localiser des classes génériques d’objets, plutôt que d’utiliser le traitement du langage naturel pour comprendre l’invite d’un utilisateur et localiser des objets spécifiques.

Une équipe de chercheurs de l’Université du Michigan a récemment entrepris de développer une nouvelle approche qui améliorerait la capacité des robots à explorer des environnements du monde ouvert et à y naviguer de manière personnalisée. Le cadre proposé, présenté dans un article publié sur arXiv serveur de préimpression, utilise des modèles de langage étendus (LLM) pour permettre aux robots de mieux répondre aux demandes des utilisateurs, par exemple en localisant des objets spécifiques à proximité.

« Les travaux existants de ZSON se concentrent principalement sur le suivi d’instructions individuelles pour trouver des classes d’objets génériques, en négligeant l’utilisation de l’interaction en langage naturel et la complexité de l’identification d’objets spécifiques à l’utilisateur », ont écrit Yinpei Dai, Run Peng et leurs collègues dans leur article. « Pour remédier à ces limitations, nous introduisons la navigation d’objets personnalisés interactifs Zero-shot (ZIPON), dans laquelle les robots doivent naviguer vers des objets cibles personnalisés tout en engageant des conversations avec les utilisateurs. »

Dans leur article, Dai, Peng et leurs collaborateurs présentent tout d’abord une nouvelle tâche, qu’ils baptisent ZIPON. Cette tâche est une forme généralisée de ZSON, qui implique de répondre avec précision à des invites personnalisées et de localiser des objets cibles spécifiques.

Si le ZSON traditionnel implique de localiser un lit ou une chaise à proximité, ZIPON va encore plus loin en demandant à un robot d’identifier le lit d’une personne spécifique, une chaise achetée sur Amazon, etc. Les chercheurs ont ensuite tenté de développer un cadre informatique capable de résoudre efficacement ce problème.

« Pour résoudre ZIPON, nous proposons un nouveau cadre appelé Open-world Interactive personalized Navigation (ORION), qui utilise des modèles de langage étendus (LLM) pour prendre des décisions séquentielles afin de manipuler différents modules pour la perception, la navigation et la communication », Dai, Peng et leur » ont écrit mes collègues dans leur article.

Le nouveau framework développé par cette équipe de chercheurs comporte six modules clés : un module de contrôle, une carte sémantique, une détection de vocabulaire ouvert, une exploration, une mémoire et un module d’interaction. Le module de contrôle permet au robot de se déplacer dans son environnement, le module de carte sémantique indexe le langage naturel et le module de détection à vocabulaire ouvert permet au robot de détecter des objets sur la base de descriptions basées sur le langage.

Les robots recherchent ensuite des objets dans leur environnement à l’aide du module d’exploration, tout en stockant les informations importantes et les commentaires reçus des utilisateurs dans le module de mémoire. Enfin, le module d’interaction permet aux robots de parler avec les utilisateurs, répondant verbalement à leurs demandes.

Dai, Peng et leurs collègues ont évalué le cadre proposé à la fois dans des simulations et dans des expériences réelles, en utilisant TIAGo, un robot mobile à roues et à deux bras. Leurs résultats étaient prometteurs, car leur cadre a amélioré avec succès la capacité du robot à utiliser les commentaires des utilisateurs lorsqu’il tentait de localiser des objets spécifiques à proximité.

« Les résultats expérimentaux montrent que les performances des agents interactifs capables d’exploiter les commentaires des utilisateurs présentent une amélioration significative », ont expliqué Dai, Peng et leurs collègues. « Cependant, obtenir un bon équilibre entre l’achèvement des tâches et l’efficacité de la navigation et de l’interaction reste un défi pour toutes les méthodes. Nous fournissons en outre davantage de résultats sur l’impact des divers formulaires de commentaires des utilisateurs sur les performances des agents. »

Bien que le cadre ORION montre un potentiel pour améliorer la navigation personnalisée des robots dans des environnements inconnus, l’équipe a trouvé qu’il était extrêmement difficile de garantir simultanément que les robots accomplissent leurs missions, naviguent en douceur dans des environnements inconnus et interagissent bien avec les utilisateurs. À l’avenir, cette étude pourrait éclairer le développement de nouveaux modèles pour accomplir la tâche ZIPON, qui pourraient remédier à certaines des lacunes signalées du cadre proposé par l’équipe.

« Ce travail n’est que notre première étape dans l’exploration des LLM en navigation personnalisée et présente plusieurs limites », ont écrit Dai, Peng et leurs collègues dans leur article. « Par exemple, il ne gère pas des types d’objectifs plus larges, tels que les objectifs d’image, ni n’aborde les interactions multimodales avec les utilisateurs dans le monde réel. Nos efforts futurs s’étendront sur ces dimensions pour faire progresser l’adaptabilité et la polyvalence des robots interactifs dans le monde humain. monde. »