Test d'un modèle d'apprentissage profond non supervisé pour l'imitation robotique des mouvements humains

Test d'un modèle d'apprentissage profond non supervisé pour l'imitation robotique des mouvements humains

Les robots capables d'imiter fidèlement les actions et les mouvements des humains en temps réel pourraient être incroyablement utiles, car ils pourraient apprendre à accomplir des tâches quotidiennes de manière spécifique sans avoir à être largement préprogrammés pour ces tâches. Si les techniques permettant l'apprentissage par imitation se sont considérablement améliorées ces dernières années, leurs performances sont souvent freinées par le manque de correspondance entre le corps d'un robot et celui de son utilisateur humain.

Des chercheurs de l'U2IS de l'ENSTA Paris ont récemment introduit un nouveau modèle basé sur l'apprentissage profond qui pourrait améliorer les capacités d'imitation de mouvement des systèmes robotiques humanoïdes. Ce modèle, présenté dans un article pré-publié sur arXivaborde l'imitation de mouvement en trois étapes distinctes, conçues pour réduire les problèmes de correspondance homme-robot signalés dans le passé.

« Ce travail de recherche à un stade précoce vise à améliorer l'imitation homme-robot en ligne en traduisant des séquences de positions articulaires du domaine des mouvements humains vers un domaine de mouvements réalisables par un robot donné, donc contraint par son incarnation », Louis Annabi, Ziqi Ma , et Sao Mai Nguyen a écrit dans son journal. « En tirant parti des capacités de généralisation des méthodes d'apprentissage en profondeur, nous résolvons ce problème en proposant un modèle de réseau neuronal encodeur-décodeur effectuant une traduction de domaine à domaine. »

Le modèle développé par Annabi, Ma et Nguyen divise le processus d'imitation homme-robot en trois étapes clés, à savoir l'estimation de la pose, le reciblage de mouvement et le contrôle du robot. Premièrement, il utilise des algorithmes d’estimation de pose pour prédire des séquences de positions des articulations du squelette qui sous-tendent les mouvements démontrés par les agents humains.

Par la suite, le modèle traduit cette séquence prévue de positions squelette-articulations en positions articulaires similaires qui peuvent être produites de manière réaliste par le corps du robot. Enfin, ces séquences traduites sont utilisées pour planifier les mouvements du robot, ce qui entraîne théoriquement des mouvements dynamiques qui pourraient aider le robot à accomplir la tâche à accomplir.

« Pour entraîner un tel modèle, on pourrait utiliser des paires de mouvements robotiques et humains associés, [yet] de telles données appariées sont extrêmement rares dans la pratique et fastidieuses à collecter », écrivent les chercheurs dans leur article. « Par conséquent, nous nous tournons vers des méthodes d'apprentissage profond pour la traduction domaine à domaine non appariée, que nous adaptons afin d'effectuer des conversions homme-robot. imitation. »

Annabi, Ma et Nguyen ont évalué les performances de leur modèle dans une série de tests préliminaires, en le comparant à une méthode plus simple pour reproduire des orientations communes qui ne repose pas sur l'apprentissage profond. Leur modèle n’a pas obtenu les résultats espérés, ce qui suggère que les méthodes actuelles d’apprentissage en profondeur pourraient ne pas être en mesure de recibler les mouvements en temps réel.

Les chercheurs prévoient désormais de mener d’autres expériences pour identifier les problèmes potentiels liés à leur approche, afin de pouvoir les résoudre et adapter le modèle pour améliorer ses performances. Les résultats de l'équipe suggèrent jusqu'à présent que même si les techniques d'apprentissage profond non supervisé peuvent être utilisées pour permettre l'apprentissage par imitation dans les robots, leurs performances ne sont toujours pas suffisamment bonnes pour qu'elles puissent être déployées sur de vrais robots.

« Les travaux futurs étendront l'étude actuelle dans trois directions : enquêter davantage sur l'échec de la méthode actuelle, comme expliqué dans la dernière section, créer un ensemble de données de données de mouvement appariées à partir d'une imitation humain-humain ou robot-humain, et améliorer le modèle. architecture afin d'obtenir des prédictions de reciblage plus précises », concluent les chercheurs dans leur article.