L'IA aide les robots à manipuler des objets avec tout leur corps

Dans ces figures, un robot simulé effectue trois tâches de manipulation riches en contacts : manipulation d’une balle dans la main, ramasser une assiette et manipuler un stylo dans une orientation spécifique. Crédit : HJ Terry Suh, Lujie Yang, Russ Tedrake et al.

Imaginez que vous souhaitiez transporter une grande et lourde boîte dans un escalier. Vous pouvez écarter vos doigts et soulever cette boîte à deux mains, puis la tenir au-dessus de vos avant-bras et la maintenir en équilibre contre votre poitrine, en utilisant tout votre corps pour manipuler la boîte.

Les humains sont généralement doués pour la manipulation du corps entier, mais les robots ont du mal à accomplir de telles tâches. Pour le robot, chaque endroit où la boîte pourrait toucher n’importe quel point des doigts, des bras et du torse du porteur représente un événement de contact sur lequel il doit raisonner. Avec des milliards d’événements de contact potentiels, la planification de cette tâche devient rapidement insoluble.

Les chercheurs du MIT ont désormais trouvé un moyen de simplifier ce processus, connu sous le nom de planification de manipulation riche en contacts. Ils utilisent une technique d’IA appelée lissage, qui résume de nombreux événements de contact en un plus petit nombre de décisions, pour permettre même à un algorithme simple d’identifier rapidement un plan de manipulation efficace pour le robot.

Bien qu’elle en soit encore à ses débuts, cette méthode pourrait potentiellement permettre aux usines d’utiliser des robots mobiles plus petits, capables de manipuler des objets avec l’ensemble de leurs bras ou de leur corps, plutôt que de grands bras robotiques qui ne peuvent saisir qu’avec le bout des doigts. Cela peut contribuer à réduire la consommation d’énergie et à réduire les coûts. De plus, cette technique pourrait être utile dans les robots envoyés en mission d’exploration sur Mars ou d’autres corps du système solaire, car ils pourraient s’adapter rapidement à l’environnement en utilisant uniquement un ordinateur de bord.

« Plutôt que de considérer cela comme un système de boîte noire, si nous pouvons exploiter la structure de ces types de systèmes robotiques à l’aide de modèles, nous avons la possibilité d’accélérer toute la procédure consistant à essayer de prendre ces décisions et de proposer des solutions riches en contacts. plans », déclare HJ Terry Suh, étudiant diplômé en génie électrique et informatique (EECS) et co-auteur principal d’un article sur cette technique.

Se joindre à Suh sur l’article sont le co-auteur principal Tao Pang Ph.D. ’23, roboticien au Boston Dynamics AI Institute ; Lujie Yang, étudiante diplômée de l’EECS ; et l’auteur principal Russ Tedrake, professeur Toyota d’EECS, d’aéronautique et d’astronautique et de génie mécanique, et membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL). La recherche paraît cette semaine dans Transactions IEEE sur la robotique.

Apprendre à apprendre

L’apprentissage par renforcement est une technique d’apprentissage automatique dans laquelle un agent, comme un robot, apprend à accomplir une tâche par essais et erreurs, avec une récompense pour s’être rapproché d’un objectif. Les chercheurs affirment que ce type d’apprentissage adopte une approche de boîte noire, car le système doit tout apprendre sur le monde par essais et erreurs.

Il a été utilisé efficacement pour la planification de manipulations riches en contacts, où le robot cherche à apprendre la meilleure façon de déplacer un objet d’une manière spécifiée.

Mais comme il peut y avoir des milliards de points de contact potentiels sur lesquels un robot doit raisonner pour déterminer comment utiliser ses doigts, ses mains, ses bras et son corps pour interagir avec un objet, cette approche par essais et erreurs nécessite beaucoup de calculs.

« L’apprentissage par renforcement peut nécessiter des millions d’années en temps de simulation pour pouvoir réellement apprendre une politique », ajoute Suh.

D’un autre côté, si les chercheurs conçoivent spécifiquement un modèle basé sur la physique en utilisant leur connaissance du système et la tâche qu’ils souhaitent que le robot accomplisse, ce modèle intègre une structure sur ce monde qui le rend plus efficace.

Pourtant, les approches basées sur la physique ne sont pas aussi efficaces que l’apprentissage par renforcement lorsqu’il s’agit de planifier des manipulations riches en contacts. Suh et Pang se demandent pourquoi.

Ils ont mené une analyse détaillée et ont découvert qu’une technique connue sous le nom de lissage permet à l’apprentissage par renforcement de si bien fonctionner.

La plupart des décisions qu’un robot pourrait prendre pour déterminer comment manipuler un objet ne sont pas importantes dans le grand schéma des choses. Par exemple, chaque ajustement infinitésimal d’un doigt, qu’il entraîne ou non un contact avec l’objet, n’a pas beaucoup d’importance. Le lissage fait la moyenne d’un grand nombre de ces décisions intermédiaires sans importance, laissant quelques décisions importantes.

L’apprentissage par renforcement effectue un lissage implicite en essayant de nombreux points de contact, puis en calculant une moyenne pondérée des résultats. S’appuyant sur ces informations, les chercheurs du MIT ont conçu un modèle simple qui effectue un type de lissage similaire, lui permettant de se concentrer sur les interactions robot-objet principales et de prédire le comportement à long terme. Ils ont montré que cette approche pouvait être tout aussi efficace que l’apprentissage par renforcement pour générer des plans complexes.

« Si vous en savez un peu plus sur votre problème, vous pouvez concevoir des algorithmes plus efficaces », explique Pang.

Une combinaison gagnante

Même si le lissage simplifie grandement les décisions, la recherche dans les décisions restantes peut rester un problème difficile. Ainsi, les chercheurs ont combiné leur modèle avec un algorithme capable de rechercher rapidement et efficacement toutes les décisions possibles que le robot pourrait prendre.

Grâce à cette combinaison, le temps de calcul a été réduit à environ une minute sur un ordinateur portable standard.

Ils ont d’abord testé leur approche dans des simulations où des mains robotiques se voyaient confier des tâches telles que déplacer un stylo vers une configuration souhaitée, ouvrir une porte ou ramasser une assiette. Dans chaque cas, leur approche basée sur un modèle a obtenu les mêmes performances que l’apprentissage par renforcement, mais en une fraction du temps. Ils ont constaté des résultats similaires lorsqu’ils ont testé leur modèle matériel sur de vrais bras robotiques.

« Les mêmes idées qui permettent la manipulation du corps entier fonctionnent également pour la planification avec des mains adroites, semblables à celles des humains. Auparavant, la plupart des chercheurs disaient que l’apprentissage par renforcement était la seule approche adaptée aux mains adroites, mais Terry et Tao ont montré qu’en prenant cette clé Grâce à l’idée d’un lissage (randomisé) à partir de l’apprentissage par renforcement, ils peuvent également faire fonctionner extrêmement bien les méthodes de planification plus traditionnelles », explique Tedrake.

Cependant, le modèle qu’ils ont développé repose sur une approximation plus simple du monde réel et ne peut donc pas gérer des mouvements très dynamiques, tels que la chute d’objets. Bien qu’efficace pour les tâches de manipulation plus lentes, leur approche ne permet pas de créer un plan qui permettrait à un robot de jeter une canette dans une poubelle, par exemple. À l’avenir, les chercheurs prévoient d’améliorer leur technique afin de pouvoir s’attaquer à ces mouvements hautement dynamiques.

« Si vous étudiez attentivement vos modèles et comprenez vraiment le problème que vous essayez de résoudre, vous pouvez certainement réaliser des gains. Il y a des avantages à faire des choses qui vont au-delà de la boîte noire », déclare Suh.