Apprendre à un robot ses limites pour accomplir des tâches ouvertes en toute sécurité

Si quelqu’un vous conseille de « connaître vos limites », il vous suggère probablement de faire des choses comme faire de l’exercice avec modération. Pour un robot, cependant, la devise représente les contraintes d'apprentissage, ou les limitations d'une tâche spécifique dans l'environnement de la machine, pour effectuer les tâches correctement et en toute sécurité.

Par exemple, imaginez demander à un robot de nettoyer votre cuisine alors qu'il ne comprend pas la physique de son environnement. Comment la machine peut-elle générer un plan pratique en plusieurs étapes pour garantir que la pièce est impeccable ? Les grands modèles de langage (LLM) peuvent les rapprocher, mais si le modèle est uniquement entraîné sur du texte, il risque de passer à côté de détails clés sur les contraintes physiques du robot, comme la distance qu'il peut atteindre ou s'il y a des obstacles à proximité à éviter. Tenez-vous-en aux LLM seuls et vous finirez probablement par nettoyer les taches de pâtes sur vos planches de parquet.

Pour guider les robots dans l'exécution de ces tâches ouvertes, des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT ont utilisé des modèles de vision pour voir ce qui se trouve à proximité de la machine et modéliser ses contraintes. La stratégie de l'équipe implique qu'un LLM élabore un plan qui est vérifié dans un simulateur pour garantir qu'il est sûr et réaliste. Si cette séquence d'actions est irréalisable, le modèle de langage générera un nouveau plan, jusqu'à ce qu'il parvienne à un plan que le robot pourra exécuter.

Cette méthode d'essais et d'erreurs, que les chercheurs appellent « Planification pour les robots via le code pour la satisfaction continue des contraintes » (PRoC3S), teste les plans à long terme pour s'assurer qu'ils satisfont à toutes les contraintes et permet à un robot d'effectuer des tâches aussi diverses que l'écriture. des lettres individuelles, dessiner une étoile, trier et placer des blocs dans différentes positions. À l'avenir, PRoC3S pourrait aider les robots à accomplir des tâches plus complexes dans des environnements dynamiques comme les maisons, où ils pourraient être invités à effectuer une tâche générale composée de nombreuses étapes (comme « prépare-moi le petit-déjeuner »).

« Les LLM et les systèmes robotiques classiques tels que les planificateurs de tâches et de mouvements ne peuvent pas exécuter ce type de tâches seuls, mais ensemble, leur synergie rend possible une résolution de problèmes ouverte », explique le doctorat. étudiant Nishanth Kumar SM '24, co-auteur principal d'un nouvel article sur PRoC3S publié sur le arXiv serveur de préimpression.

« Nous créons une simulation à la volée de ce qui se trouve autour du robot et testons de nombreux plans d'action possibles. Les modèles de vision nous aident à créer un monde numérique très réaliste qui permet au robot de raisonner sur les actions réalisables pour chaque étape d'un long processus. -plan d'horizon. »

Les travaux de l'équipe ont été présentés le mois dernier lors de la Conférence sur l'apprentissage des robots (CoRL) à Munich, en Allemagne.

La méthode des chercheurs utilise un LLM pré-entraîné sur des textes provenant d'Internet. Avant de demander à PRoC3S d'effectuer une tâche, l'équipe a fourni à son modèle de langage un exemple de tâche (comme dessiner un carré) liée à celle cible (dessiner une étoile). L'exemple de tâche comprend une description de l'activité, un plan à long terme et des détails pertinents sur l'environnement du robot.

Mais comment ces projets se sont-ils déroulés dans la pratique ? Lors de simulations, PRoC3S a réussi à dessiner des étoiles et des lettres huit fois sur dix chacune. Il pourrait également empiler des blocs numériques en pyramides et en lignes, et placer des objets avec précision, comme des fruits dans une assiette. Dans chacune de ces démonstrations numériques, la méthode CSAIL a accompli la tâche demandée de manière plus cohérente que des approches comparables telles que « LLM3 » et « Code as Politics ».

Les ingénieurs du CSAIL ont ensuite amené leur approche au monde réel. Leur méthode développait et exécutait des plans sur un bras robotique, lui apprenant à placer des blocs en lignes droites. PRoC3S a également permis à la machine de placer des blocs bleus et rouges dans des bols assortis et de déplacer tous les objets près du centre d'une table.

Kumar et le co-auteur principal Aidan Curtis SM '23, également titulaire d'un doctorat. étudiant travaillant au CSAIL, affirment que ces résultats indiquent comment un LLM peut développer des plans plus sûrs auxquels les humains peuvent faire confiance pour travailler dans la pratique. Les chercheurs imaginent un robot domestique qui pourrait recevoir une requête plus générale (comme « apportez-moi des jetons ») et déterminer de manière fiable les étapes spécifiques nécessaires à son exécution. PRoC3S pourrait aider un robot à tester des plans dans un environnement numérique identique pour trouver un plan d'action efficace et, plus important encore, vous apporter une délicieuse collation.

Pour les travaux futurs, les chercheurs visent à améliorer les résultats à l’aide d’un simulateur physique plus avancé et à les étendre à des tâches plus élaborées à plus long terme via des techniques de recherche de données plus évolutives. De plus, ils prévoient d’appliquer PRoC3S à des robots mobiles tels qu’un quadrupède pour des tâches telles que la marche et la numérisation de l’environnement.

« L'utilisation de modèles de base tels que ChatGPT pour contrôler les actions des robots peut conduire à des comportements dangereux ou incorrects dus à des hallucinations », explique Eric Rosen, chercheur à l'AI Institute, qui n'est pas impliqué dans la recherche. « PRoC3S s'attaque à ce problème en exploitant des modèles de base pour un guidage des tâches de haut niveau, tout en employant des techniques d'IA qui raisonnent explicitement sur le monde pour garantir des actions correctes et sûres de manière vérifiable.

« Cette combinaison d'approches basées sur la planification et basées sur les données pourrait être essentielle au développement de robots capables de comprendre et d'exécuter de manière fiable un éventail de tâches plus large que ce qui est actuellement possible. »