Un cadre évolutif basé sur l'apprentissage par renforcement pour faciliter la téléopération des robots humanoïdes

Le fonctionnement efficace des robots à distance, également connu sous le nom de téléopération, pourrait permettre aux humains d’effectuer à distance une vaste gamme de tâches manuelles, y compris des procédures risquées et complexes. Pourtant, la téléopération pourrait également être utilisée pour compiler des ensembles de données sur les mouvements humains, ce qui pourrait aider à former des robots humanoïdes à de nouvelles tâches.

Des chercheurs de l'Université Carnegie Mellon ont récemment développé Human2HumanOid (H₂O), une méthode permettant la téléopération efficace de robots humanoïdes à taille humaine. Cette approche, présentée dans un article publié sur le arXiv serveur de préimpression, pourrait permettre la formation de robots humanoïdes à des tâches manuelles nécessitant des ensembles de mouvements spécifiques, notamment pratiquer divers sports, pousser un chariot ou une poussette et déplacer des cartons.

« Beaucoup de gens pensent que 2024 est l'année des humanoïdes, en grande partie parce que l'alignement des incarnations entre les humains et les humanoïdes permet une intégration transparente des compétences cognitives humaines avec des capacités humanoïdes polyvalentes », a déclaré Guanya Shi, co-auteur de l'article, à Tech Xplore.

« Pourtant, avant une intégration aussi passionnante, nous devons d'abord créer une interface entre l'humain et l'humanoïde pour la collecte de données et le développement d'algorithmes. Notre travail H₂O (Human2HumanOid) fait le premier pas en introduisant un système de téléopération du corps entier en temps réel utilisant simplement une caméra RVB, qui permet à un humain de téléopérer avec précision un humanoïde dans de nombreuses tâches du monde réel. »

Les travaux récents de ces chercheurs facilitent la téléopération de robots humanoïdes grandeur nature en temps réel. Contrairement à de nombreuses autres méthodes introduites dans des études antérieures, H₂O s'appuie uniquement sur une caméra RVB, ce qui facilite sa mise à l'échelle et sa généralisation.

« Nous pensons que la téléopération humaine sera essentielle pour augmenter le volant de données des robots humanoïdes, et rendre la téléopération accessible et facile à réaliser est notre objectif principal », a déclaré Tairan He, co-auteur de l'article, à Tech Xplore. « Inspirée par des travaux antérieurs qui ont abordé certaines parties de ce défi, comme l'animation physique des mouvements humains, le transfert des mouvements humains vers des humanoïdes du monde réel et la téléopération des humanoïdes, cette étude vise à fusionner ces composants dans un cadre unique. »

H₂O est une méthode évolutive et efficace qui permet aux chercheurs de compiler de grands ensembles de données sur les mouvements humains et de rediriger ces mouvements vers des robots humanoïdes, afin que les humains puissent les téléopérer en temps réel, reproduisant tous leurs mouvements corporels sur le robot. Réaliser la téléopération du corps entier des robots en temps réel est une tâche difficile, car les corps des robots humanoïdes ne leur permettent pas toujours de reproduire les mouvements humains impliquant différents membres et les contrôleurs basés sur des modèles existants ne produisent pas toujours des mouvements réalistes chez les robots.

» H₂O téléopération est un cadre basé sur l'apprentissage par renforcement (RL) qui facilite la téléopération en temps réel du corps entier de robots humanoïdes en utilisant simplement une caméra RVB », a-t-il expliqué. « Le processus commence par recibler les mouvements humains vers les capacités humanoïdes grâce à un roman ' méthodologie sim-to-data, garantissant que les mouvements sont réalisables pour les contraintes physiques de l'humanoïde. Cet ensemble de données de mouvement raffiné forme ensuite un imitateur de mouvement basé sur RL en simulation, qui est ensuite transféré au robot réel sans autre ajustement. »

La méthode développée par Shi, He et leurs collègues présente de nombreux avantages. Les chercheurs ont montré que malgré ses exigences matérielles minimales, il permet aux robots d’effectuer un large éventail de mouvements dynamiques de tout le corps en temps réel.

Les images d’entrée utilisées pour téléopérer les robots sont collectées à l’aide d’une caméra RVB standard. Les autres composants du système comprennent un algorithme de reciblage, une méthode pour nettoyer les données de mouvement humain dans les simulations (garantissant que les mouvements peuvent être efficacement reproduits dans les robots) et un modèle basé sur l'apprentissage par renforcement qui apprend de nouvelles politiques de téléopération.

« La réalisation la plus notable de notre étude est la démonstration réussie d'une téléopération humanoïde du corps entier en temps réel, basée sur l'apprentissage, une première du genre à notre connaissance », a déclaré M. He. « Cette démonstration ouvre de nouvelles voies pour les applications des robots humanoïdes dans des environnements où la présence humaine est risquée ou peu pratique. »

Les chercheurs ont démontré la faisabilité de leur approche dans une série de tests réels, au cours desquels ils ont téléopéré un robot humanoïde et ont réussi à reproduire divers mouvements, notamment déplacer une boîte, taper dans un ballon, pousser une poussette, attraper une boîte et la laisser tomber dans un corbeille.

Le H₂Le framework O pourrait bientôt être utilisé pour reproduire d'autres mouvements et entraîner des robots à de nombreuses tâches du monde réel, allant des tâches ménagères aux tâches de maintenance, en passant par la fourniture d'une assistance médicale et même le sauvetage d'humains dans des endroits dangereux. Comme elle ne nécessite qu’une caméra RVB, cette nouvelle méthode pourrait être mise en œuvre de manière réaliste dans un large éventail de paramètres.

« Le processus » simulation vers données « et la stratégie de contrôle basée sur RL pourraient également influencer les développements futurs en matière de téléopération et d'imitation de mouvement des robots », a-t-il déclaré. « Nos recherches futures se concentreront sur l'amélioration et l'expansion des capacités de la téléopération humanoïde. Les domaines clés comprennent l'amélioration de la fidélité du reciblage des mouvements pour couvrir un plus large éventail d'activités humaines, la réduction plus efficace de l'écart entre la simulation et le réel et l'exploration de moyens d'intégrer les commentaires. du robot à l'opérateur pour créer une expérience de téléopération plus immersive.

Un cadre évolutif basé sur l'apprentissage par renforcement pour faciliter la téléopération des robots humanoïdes

Dans leurs prochaines études, Shi, He et leurs collaborateurs prévoient de faire progresser davantage leur système. Par exemple, ils souhaiteraient améliorer ses performances dans des scénarios complexes, non structurés et imprévisibles, car cela pourrait simplifier son déploiement dans le monde réel.

« Nous prévoyons également d'étendre le cadre pour inclure la manipulation avec des mains adroites et d'améliorer progressivement le niveau d'autonomie du robot pour enfin parvenir à une collaboration homme-robot efficace, sûre et adroite », a ajouté Changliu Liu.