Un nouveau cadre peut créer des démonstrations humaines égocentriques pour un apprentissage par imitation
L’une des approches les plus prometteuses pour apprendre aux robots à accomplir des tâches manuelles telles que nettoyer la vaisselle ou préparer des aliments est connue sous le nom d’apprentissage par imitation. L’apprentissage par imitation de bout en bout implique généralement la formation d’un algorithme d’apprentissage profond sur des vidéos brutes, des images et/ou des données de capture de mouvements d’humains effectuant des tâches manuelles.
Au cours de cet entraînement, l'algorithme apprend progressivement à produire des actions de sortie (c'est-à-dire des mouvements articulaires du robot, des trajectoires, etc.) qui permettraient à un robot d'accomplir avec succès les mêmes tâches.
Bien que les techniques d’apprentissage par imitation puissent améliorer la capacité des robots à accomplir des tâches complexes de manipulation d’objets, elles ne permettent souvent pas aux robots de généraliser à des tâches qui ne sont pas incluses dans l’ensemble de données de formation. De plus, rassembler des démonstrations de formation pour un large éventail de tâches peut s’avérer difficile et nécessite des capteurs ou des équipements avancés.
Des chercheurs du Georgia Institute of Technology ont récemment introduit EgoMimic, un nouveau cadre qui pourrait être utilisé pour collecter facilement des données de démonstration plus variées pour l'apprentissage par imitation. Ce cadre, présenté dans un article publié sur le arXiv Preprint Server, offre une plate-forme évolutive pour rassembler des démonstrations vidéo d'humains accomplissant des tâches manuelles, du point de vue de la personne qui accomplit la tâche (c'est-à-dire égocentrique).
« Nous présentons EgoMimic, un framework complet qui adapte la manipulation via les données de l'incarnation humaine, en particulier les vidéos humaines égocentriques associées au suivi des mains en 3D », ont écrit Simar Kareer, Dhruv Patel et leurs collègues dans leur article.
« EgoMimic y parvient grâce à : (1) un système permettant de capturer les données de l'incarnation humaine à l'aide des lunettes ergonomiques Project Aria, (2) un manipulateur bimanuel à faible coût qui minimise l'écart cinématique avec les données humaines, (3) des techniques d'alignement des données inter-domaines. , et (4) une architecture d'apprentissage par imitation qui co-entraîne sur les données humaines et robotiques.
Le premier composant du framework EgoMimic, le système de capture de vidéos de démonstration, repose sur l'utilisation du Project Aria, des lunettes intelligentes portables créées par Meta Reality Labs Research. Ces lunettes sont portées par les humains lorsqu'ils effectuent des tâches manuelles quotidiennes, pour enregistrer la tâche de leur point de vue.
Le système robotique bimanuel que les chercheurs ont utilisé pour accomplir les mêmes tâches accomplies par les humains se compose de deux bras robotiques Viper X intégrant les caméras-bracelets RealSense d'Intel, qui sont à leur tour contrôlées par deux bras robotiques WidowX. Notamment, ce robot bi-manuel « porte » également des lunettes Aria lorsqu’il accomplit une tâche, car cela minimise la différence entre les images de manifestants humains accomplissant des tâches et la vue du robot sur l’espace de travail.
« Par rapport aux travaux antérieurs qui extraient uniquement l'intention de haut niveau des vidéos humaines, notre approche traite les données humaines et robotiques de la même manière comme des données de démonstration incarnées et apprend une politique unifiée à partir des deux sources de données », ont écrit Kareer, Patel et leurs collègues.
Les chercheurs ont testé le cadre proposé en menant une série d’expériences dans leur laboratoire, où leur robot a appris à effectuer des tâches réelles à long terme. Par exemple, le robot a appris à ramasser une petite peluche, à la placer dans un bol, à ramasser le bol et à jeter le jouet sur la table, puis à répéter cette séquence de mouvements pendant 40 secondes.
Parmi les autres tâches sur lesquelles il a été formé, citons le pliage de t-shirts d'une manière particulière et le remplissage d'un sac d'épicerie avec des sacs de chips. Les résultats de ces premières expériences étaient très prometteurs, car le cadre EgoMimic a donné de meilleures performances sur ces trois tâches que d'autres techniques d'apprentissage par imitation de pointe introduites dans le passé, tout en permettant au robot d'appliquer efficacement les compétences acquises. à des tâches qu'il n'avait pas rencontrées au cours de la formation.
« EgoMimic réalise une amélioration significative sur un ensemble diversifié de tâches de manipulation à long horizon, à un seul bras et bimanuelles par rapport aux méthodes d'apprentissage par imitation de pointe et permet la généralisation à des scènes entièrement nouvelles », ont écrit Kareer, Patel et leurs collègues. « Enfin, nous montrons une tendance de mise à l'échelle favorable pour EgoMimic, où l'ajout d'une heure de données manuelles supplémentaires a beaucoup plus de valeur qu'une heure de données robotiques supplémentaires. »
Le code des modèles de traitement des données et de formation utilisés par les chercheurs est disponible sur GitHub. À l’avenir, EgoMimic ou ses adaptations pourraient être utilisés par d’autres roboticiens du monde entier pour améliorer les performances et la généralisabilité de divers systèmes robotiques dans diverses tâches quotidiennes impliquant la manipulation d’objets.