Un nouveau système de simulation génère des milliers d'exemples d'entraînement pour les mains et les bras robotiques

Lorsque Chatgpt ou Gemini donnent ce qui semble être une réponse experte à vos questions brûlantes, vous ne réalisez peut-être pas combien d'informations il s'appuie pour donner cette réponse. Comme d'autres modèles populaires de l'intelligence artificielle générative (IA), ces chatbots reposent sur des systèmes d'épine dorsale appelés modèles de fondation qui s'entraînent sur des milliards, voire des milliards de points de données.

Dans la même veine, les ingénieurs espèrent construire des modèles de fondation qui forment une gamme de robots sur de nouvelles compétences comme ramasser, déplacer et mettre des objets dans des endroits comme les maisons et les usines. Le problème est qu'il est difficile de collecter et de transférer des données pédagogiques sur les systèmes robotiques. Vous pouvez enseigner votre système en téléopérant le matériel étape par étape en utilisant une technologie comme la réalité virtuelle (VR), mais cela peut prendre du temps. La formation sur les vidéos d'Internet est moins instructive, car les clips ne fournissent pas une marche de tâche spécialisée étape par étape pour des robots particuliers.

Une approche axée sur la simulation appelée « PhysicsGen » du Laboratoire d'intelligence informatique et d'intelligence artificielle du MIT (CSAIL) et l'informatique et l'Institut AI personnalisent les données de formation des robots pour aider les robots à trouver les mouvements les plus efficaces pour une tâche. Le système peut multiplier quelques dizaines de démonstrations VR en près de 3 000 simulations par machine. Ces instructions de haute qualité sont ensuite mappées aux configurations précises de compagnons mécaniques comme les bras et les mains robotiques.

PhysicsGen crée des données qui se généralisent à des robots et des conditions spécifiques via un processus en trois étapes. Tout d'abord, un casque VR suit comment les humains manipulent des objets comme des blocs utilisant leurs mains. Ces interactions sont cartographiées dans un simulateur de physique 3D en même temps, visualisant les points clés de nos mains comme de petites sphères qui reflètent nos gestes. Par exemple, si vous avez renversé un jouet, vous verriez des formes 3D représentant différentes parties de vos mains en tournant une version virtuelle de cet objet.

Le pipeline recouvre ensuite ces points vers un modèle 3D de la configuration d'une machine spécifique (comme un bras robotique), en les déplaçant vers les « joints » précis où un système se tord et tourne. Enfin, PhysicsGen utilise l'optimisation de la trajectoire – simulant essentiellement les mouvements les plus efficaces pour effectuer une tâche – donc le robot connaît les meilleures façons de faire des choses comme le repositionnement d'une boîte.

Chaque simulation est un point de données d'entraînement détaillé qui guide un robot à travers des moyens potentiels de gérer les objets. Lorsqu'il est mis en œuvre dans une politique (ou le plan d'action que le robot suit), la machine a une variété de façons d'approcher une tâche et peut essayer différentes mouvements si l'on ne fonctionne pas.

« Nous créons des données spécifiques au robot sans avoir besoin que les humains réenregistrent des démonstrations spécialisées pour chaque machine », explique Lujie Yang, un doctorat du MIT. Étudiant en génie électrique et en informatique et affilié CSAIL qui est l'auteur principal d'un nouveau journal publié sur le arxiv Serveur préimprimée qui introduit le projet. « Nous augmentons les données d'une manière autonome et efficace, ce qui rend les instructions de tâche utiles à une gamme plus large de machines. »

La génération de tant de trajectoires pédagogiques pour les robots pourrait éventuellement aider les ingénieurs à construire un ensemble de données massif pour guider les machines comme les bras robotiques et les mains dextères. Par exemple, le pipeline pourrait aider deux bras robotiques à collaborer sur la ramassage des articles d'entrepôt et les placer dans les bonnes boîtes pour les livraisons. Le système peut également guider deux robots pour travailler ensemble dans un ménage sur des tâches comme ranger les tasses.

Le potentiel de PhysicsGen s'étend également à la conversion de données conçues pour les robots plus anciens ou différents environnements en instructions utiles pour les nouvelles machines. « Bien qu'il soit collecté pour un type de robot spécifique, nous pouvons relancer ces ensembles de données antérieurs pour les rendre plus généralement utiles », ajoute Yang.

Ajout par multiplication

PhysicsGen n'a transformé que 24 démonstrations humaines en milliers de simulées, aidant les robots numériques et réoritaires à réorienter les objets.

Yang et ses collègues ont d'abord testé leur pipeline dans une expérience virtuelle où une main robotique flottante nécessaire pour faire tourner un bloc en position cible. Le robot numérique a exécuté la tâche à un rythme de 81% de précision en s'entraînant sur l'ensemble de données massif de Physicgen, une amélioration de 60% par rapport à une ligne de base qui n'a appris que des démonstrations humaines.

Les chercheurs ont également constaté que PhysicsGen pourrait améliorer la façon dont les bras robotiques virtuels collaborent pour manipuler des objets. Leur système a créé des données de formation supplémentaires qui ont aidé deux paires de robots à accomplir avec succès des tâches jusqu'à 30% plus souvent qu'une ligne de base purement enseignée à l'homme.

Dans une expérience avec une paire d'armes robotiques du monde réel, les chercheurs ont observé des améliorations similaires à celle des machines associées pour retourner une grande boîte dans sa position désignée. Lorsque les robots ont dévié de la trajectoire prévue ou mal géré l'objet, ils ont pu récupérer le milieu de la tâche en faisant référence à des trajectoires alternatives à partir de leur bibliothèque de données pédagogiques.

L'auteur principal Russ Tedurake, qui est professeur Toyota en génie électrique et en informatique, aéronautique et astronautique et génie mécanique au MIT, ajoute que cette technique de génération de données guidée par l'imitation combine les forces de la démonstration humaine avec la puissance des algorithmes de planification du mouvement des robots.

« Même une seule démonstration d'un humain peut faciliter le problème de la planification de mouvement », explique Tedurake, qui est également vice-président principal des grands modèles de comportement au Toyota Research Institute et chercheur principal de CSAIL. « À l'avenir, les modèles de fondation pourront peut-être fournir ces informations, et ce type de technique de génération de données fournira un type de recette post-formation pour ce modèle. »

L'avenir de Physicsgen

Bientôt, PhysicsGen peut être étendu à une nouvelle frontière: la diversification des tâches qu'une machine peut exécuter.

« Nous aimerions utiliser PhysicsGen pour enseigner à un robot pour verser de l'eau lorsqu'il n'est entraîné que pour ranger les plats, par exemple », explique Yang. « Notre pipeline ne génère pas seulement des mouvements réalisables dynamiquement pour les tâches familières; il a également le potentiel de créer une bibliothèque diversifiée d'interactions physiques qui, selon nous, peuvent servir de blocs de construction pour accomplir des tâches entièrement nouvelles qu'un humain n'a pas démontré. »

La création de nombreuses données de formation largement applicables peut éventuellement aider à construire un modèle de base pour les robots, bien que les chercheurs du MIT avertissent qu'il s'agit d'un objectif quelque peu éloigné. L'équipe dirigée par CSAIL étudie comment PhysicsGen peut exploiter de vastes ressources non structurées – comme des vidéos Internet – comme des semences pour la simulation. L'objectif: Transformer le contenu visuel quotidien en des données riches et prêtes pour les robots qui pourraient enseigner aux machines à effectuer des tâches que personne ne leur a explicitement montrées.

Yang et ses collègues visent également à rendre PhysicsGen encore plus utile pour les robots avec diverses formes et configurations à l'avenir. Pour y arriver, ils prévoient de tirer parti des ensembles de données avec des démonstrations de vrais robots, capturant comment les articulations robotiques se déplacent au lieu de celles humaines.

Les chercheurs prévoient également d'incorporer l'apprentissage du renforcement, où un système d'IA apprend par essais et erreurs, pour faire en sorte que PhysicsGen développe son ensemble de données au-delà des exemples fournis par l'homme. Ils peuvent augmenter leur pipeline avec des techniques de perception avancées pour aider un robot à percevoir et à interpréter leur environnement visuellement, permettant à la machine d'analyser et de s'adapter aux complexités du monde physique.

Pour l'instant, PhysicsGen montre comment l'IA peut nous aider à enseigner différents robots à manipuler des objets dans la même catégorie, en particulier les rigides. Le pipeline pourrait bientôt aider les robots à trouver les meilleures façons de gérer les éléments doux (comme les fruits) et les robots déformables (comme l'argile), mais ces interactions ne sont pas encore faciles à simuler.