Un nouveau cadre permet aux robots d'apprendre via des vidéos de démonstration humaines en ligne

Un nouveau cadre permet aux robots d'apprendre via des vidéos de démonstration humaines en ligne

Pour être déployés avec succès dans des environnements réels, les robots doivent être capables d’accomplir de manière fiable diverses tâches quotidiennes, allant des tâches ménagères aux processus industriels. Certaines de ces tâches pourraient consister à manipuler des tissus, par exemple pour plier des vêtements pour les ranger dans une armoire ou aider les personnes âgées à mobilité réduite à nouer leur cravate avant un événement social.

Le développement de robots capables de s’attaquer efficacement à ces tâches s’est jusqu’à présent révélé assez difficile. De nombreuses approches proposées pour entraîner les robots à des tâches de manipulation de tissus s’appuient sur l’apprentissage par imitation, une technique permettant d’entraîner le contrôle des robots à l’aide de vidéos, de séquences de capture de mouvements et d’autres données d’humains effectuant les tâches d’intérêt.

Si certaines de ces techniques ont donné des résultats encourageants, leur efficacité nécessite généralement des quantités importantes de données de démonstration humaines. Ces données peuvent être coûteuses et difficiles à collecter, tandis que les bases de données open source existantes ne contiennent pas toujours autant de données que celles utilisées pour l’entraînement d’autres techniques informatiques, telles que la vision par ordinateur ou les modèles d’IA génératifs.

Des chercheurs de l'Université nationale de Singapour, de l'Université Jiao Tong de Shanghai et de l'Université de Nanjing ont récemment présenté une approche alternative qui pourrait améliorer et simplifier la formation des algorithmes robotiques via des démonstrations humaines. Cette approche, décrite dans un article pré-publié sur arXivest conçu pour exploiter certaines des nombreuses vidéos publiées en ligne chaque jour, en les utilisant comme démonstrations humaines de tâches quotidiennes.

« Ce travail part d'une idée simple : construire un système qui permet aux robots d'utiliser les innombrables vidéos de démonstration humaine en ligne pour acquérir des compétences de manipulation complexes », a déclaré Weikun Peng, co-auteur de l'article, à Tech Xplore. « En d'autres termes, étant donné une vidéo de démonstration humaine arbitraire, nous voulions que le robot accomplisse la même tâche que celle montrée dans la vidéo. »

Bien que les études précédentes aient également introduit des techniques d’apprentissage par imitation qui exploitaient des séquences vidéo, elles utilisaient des vidéos spécifiques à un domaine (c’est-à-dire des vidéos d’humains effectuant des tâches spécifiques dans le même environnement dans lequel le robot s’attaquerait plus tard à la tâche), par opposition à des vidéos arbitraires collectées dans n’importe quel environnement ou cadre.

Le cadre développé par Peng et ses collègues, quant à lui, est conçu pour permettre l’apprentissage par imitation de robots à partir de vidéos de démonstration arbitraires trouvées en ligne.

L'approche de l'équipe repose sur trois éléments principaux, baptisés Real2Sim, Learn@Sim et Sim2Real. Le premier de ces éléments est la partie centrale et la plus importante du cadre.

« Real2Sim suit le mouvement de l'objet dans la vidéo de démonstration et reproduit le même mouvement sur un modèle maillé dans une simulation », explique Peng. « En d'autres termes, nous essayons de reproduire la démonstration humaine dans la simulation. Finalement, nous obtenons une séquence de maillages d'objets, représentant la trajectoire réelle de l'objet. »

L'approche des chercheurs utilise des maillages (c'est-à-dire des représentations numériques précises de la géométrie, de la forme et de la dynamique d'un objet) comme représentations intermédiaires. Une fois que le composant Real2Sim a reproduit une démonstration humaine dans un environnement simulé, le deuxième composant du framework, baptisé Learn@Sim, apprend les points de saisie et les points de placement qui permettraient à un robot d'effectuer les mêmes actions via l'apprentissage par renforcement.

« Après avoir appris à saisir des points et à les placer dans la simulation, nous avons déployé la politique sur un véritable robot à deux bras, ce qui constitue la troisième étape de notre pipeline (c'est-à-dire Sim2Real) », a déclaré Peng. « Nous avons formé une politique résiduelle pour atténuer l'écart Sim2Real. »

Les chercheurs ont évalué leur approche proposée dans le cadre d'une série de tests, en se concentrant plus particulièrement sur la tâche consistant à nouer une cravate. Bien que cette tâche puisse être extrêmement difficile pour les robots, l'approche de l'équipe a permis à un manipulateur robotique de la mener à bien.

« Il est à noter que de nombreux travaux antérieurs nécessitent des vidéos de démonstration « dans le domaine », ce qui signifie que le cadre des vidéos de démonstration doit être le même que celui de l'environnement d'exécution du robot », a déclaré Peng. « Notre méthode, en revanche, peut apprendre à partir de vidéos de démonstration « hors domaine » puisque nous extrayons le mouvement de l'objet dans l'espace 3D à partir de la vidéo de démonstration. »

À l’avenir, la nouvelle approche introduite par Peng et ses collègues pourrait être appliquée à d’autres tâches complexes et difficiles de manipulation de robots. À terme, elle pourrait faciliter la formation des robots par apprentissage par imitation, ce qui pourrait permettre de nouvelles avancées dans leurs compétences.

« Mon plan pour le travail futur serait d'étendre l'idée Real-Sim-Real à d'autres tâches », a ajouté Peng.

« Si nous pouvons reproduire le mouvement d'un objet en simulation, pourrions-nous reproduire le monde réel en simulation ? La communauté robotique est confrontée à un problème de pénurie de données et, à mon avis, si nous pouvons reproduire le monde réel en simulation, nous pourrons collecter des données plus efficacement et mieux transférer les politiques apprises vers de vrais robots. »