Les LLM multimodaux et de raisonnement surdimensionnent les données de formation pour des tâches robotiques adroites

Pour les robots, la simulation est un excellent outil pour apprendre des tâches à long terme (en plusieurs étapes), surtout par rapport au temps nécessaire pour collecter des données d'entraînement dans le monde réel.

Cependant, simuler des actions numériques pour enseigner de nouvelles tâches aux robots prend également beaucoup de temps pour les humains. Réduisant ces minutes de moitié, le doctorat du Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL). Le nouveau framework « GenSim2 » de l'étudiant Lirui Wang et de ses collègues utilise de grands modèles de langage multimodaux et de raisonnement (LLM qui traitent et produisent du texte, des images et d'autres médias) pour surdimensionner les données d'entraînement des robots.

Les chercheurs ont combiné les puissances du LLM GPT-4V multimodal (qui peut tirer de meilleures conclusions sur le texte et les images) et le raisonnement LLM OpenAI o1 (qui peut « réfléchir » avant de répondre) pour prendre 10 vidéos de tâches du monde réel et générer 100 nouvelles, vidéos d'action simulées. Les résultats sont publiés sur le arXiv serveur de préimpression.

GenSim2 peut ensuite convertir les noms de tâches en descriptions de tâches, puis en code de tâche, qui peut être simulé en une séquence d'actions à exécuter par un robot. Cette approche pourrait éventuellement aider les robots domestiques dans des tâches telles que déterminer chaque étape nécessaire pour réchauffer votre petit-déjeuner, notamment ouvrir un micro-ondes et placer du pain dans un grille-pain. Cela pourrait également être utile un jour dans les contextes de fabrication et de logistique, où une machine pourrait devoir transporter de nouveaux matériaux en plusieurs étapes.

Ce cadre est une suite aux travaux antérieurs de Wang, « GenSim », qui utilisaient des LLM pour coder de nouvelles tâches de sélection et de placement pour les robots. Il souhaitait élargir son approche à des activités plus adroites avec des catégories d'objets plus complexes, comme ouvrir une boîte ou fermer un coffre-fort.

« Pour planifier ces tâches plus compliquées en robotique, nous devons trouver comment les résoudre », explique Wang. « Ce problème de planification n'était pas présent dans GenSim, car les tâches étaient beaucoup plus simples, nous n'avions donc besoin que de LLM « aveugles ». Avec GenSim2, nous avons intégré le modèle logique GPT-4V, qui apprend aux modèles multimodaux à « voir » en analysant les entrées d'images. avec de meilleures capacités de raisonnement, nous pouvons désormais coder la tâche de simulation, puis générer des plans en quelques secondes.

Les écrous et boulons de GenSim2

Tout d'abord, vous invitez un LLM comme GPT-4 à générer un nouveau plan de tâches tel que « placer une balle dans une boîte », comprenant des images, des ressources et des points clés (ou des points spécifiques dans une image). À partir de là, GPT-4V examine ces détails et code de manière concise les poses et les actions nécessaires pour exécuter la tâche. Les humains peuvent fournir des commentaires sur ce plan à GPT-4V, qui en affinera ensuite les grandes lignes. Enfin, un planificateur de mouvements simule ces actions dans des vidéos, générant ainsi de nouvelles données d'entraînement pour le robot.

Pour convertir ces plans en actions, les chercheurs ont également conçu une nouvelle architecture appelée « transformateur de nuage de points proprioceptif » (PPT). PPT convertit les entrées de langage, de nuage de points (points de données dans un espace 3D) et de proprioception en une séquence d'action finale. Cela permet à un robot d'apprendre à imiter des simulations vidéo et à généraliser à des objets qu'il n'a jamais vus auparavant.

Lumières, caméra, plan d'action !

L'approche optimisée de GenSim2 a généré des données pour 100 tâches articulées avec 200 objets. Parmi celles-ci, le système a simulé 50 tâches à long terme, telles que sécuriser de l'or dans un coffre-fort et préparer le petit-déjeuner. Comparé à l'agent robotique génératif et à la référence « RoboGen », GenSim2 avait un taux de réussite 20 % supérieur en matière de génération et de planification de tâches primitives, tout en étant également plus fiable pour les tâches à long terme. Les chercheurs notent que disposer de modèles multimodaux capables de raisonner sur les entrées visuelles leur a donné un avantage.

Autre découverte intrigante : il ne fallait en moyenne qu’environ quatre minutes aux humains pour vérifier les plans robotiques, soit la moitié du temps qu’il leur fallait pour concevoir une tâche manuellement. Les efforts humains ont consisté à étiqueter les points clés dans le planificateur de mouvements et à fournir des commentaires pour aider le modèle de langage multimodal à améliorer ses plans.

Lors d'expériences réelles, GenSim2 a aidé avec succès à planifier des tâches pour un robot, comme ouvrir un ordinateur portable et fermer un tiroir. Lorsqu'il s'est entraîné à la fois sur la simulation et sur des données réelles pour développer sa politique robotique, le cadre a eu un meilleur taux de réussite que l'un ou l'autre des deux systèmes autonomes. Cela réduit l’effort requis pour collecter de grandes quantités de données dans le monde réel.

Bien que GenSim2 soit une suite plus complexe et plus avancée de son prédécesseur, les chercheurs notent qu'ils aimeraient qu'il planifie et simule des tâches robotiques avec encore moins d'intervention humaine. Actuellement, il a du mal à créer et à coder seul des tâches significatives de manière fiable.

Wang note également que même s'il s'agit d'un pas en avant vers la génération automatisée de tâches, les chercheurs ont l'intention de rendre le système plus avancé. Pour ce faire, ils prévoient d’augmenter la complexité et la diversité des tâches grâce à des agents multimodaux avancés et de générer des actifs 3D.

« La mise à l'échelle des données robotiques a constitué un défi majeur dans la création de modèles de base de robots généralisables », explique Yunzhu Li, professeur adjoint d'informatique à l'Université de Columbia, qui n'a pas participé à l'article.

« GenSim2 résout ce problème en développant un cadre évolutif pour la génération de données et d'actions, en utilisant une combinaison de simulation, GPT-4 et de transfert de simulation à réel. Je suis impatient de voir comment ce travail pourrait déclencher un « moment GPT » pour robotique en élargissant efficacement les données disponibles pour les robots.