Un cadre d'apprentissage par renforcement par imitation-relaxation pour la locomotion d'un robot à quatre pattes

Un cadre d’apprentissage par renforcement par imitation-relaxation pour la locomotion d’un robot à quatre pattes

Réponse au stress d’un robot bipède après un dérapage sur le terrain. Crédit : Jin et al

Pour que les robots à pattes explorent efficacement leur environnement et accomplissent des missions, ils doivent pouvoir se déplacer à la fois rapidement et de manière fiable. Ces dernières années, des roboticiens et des informaticiens ont créé divers modèles pour la locomotion de robots à pattes, dont beaucoup sont entraînés à l’aide de méthodes d’apprentissage par renforcement.

La locomotion efficace des robots à pattes implique la résolution de plusieurs problèmes différents. Il s’agit notamment de s’assurer que les robots maintiennent leur équilibre, qu’ils se déplacent le plus efficacement, qu’ils alternent périodiquement les mouvements de leurs jambes pour produire une démarche particulière et qu’ils peuvent suivre les commandes.

Alors que certaines approches pour la locomotion des robots à pattes ont obtenu des résultats prometteurs, beaucoup sont incapables de s’attaquer de manière cohérente à tous ces problèmes. Lorsqu’ils le font, ils ont parfois du mal à atteindre des vitesses élevées, ne permettant ainsi aux robots de se déplacer que lentement.

Des chercheurs de l’Université du Zhejiang et du Centre scientifique et technologique mondial ZJU-Hangzhou ont récemment créé un nouveau cadre qui pourrait permettre aux robots à quatre pattes de se déplacer efficacement et à grande vitesse. Ce cadre, introduit en en Intelligence des machines naturellesest basé sur une méthode d’entraînement connue sous le nom d’apprentissage par renforcement par imitation-relaxation (IRRL).

« Permettre aux robots de rattraper la biomobilité est mon objectif de recherche de rêve », a déclaré Jin Yongbin, l’un des chercheurs qui a mené l’étude, à TechXplore. « Dans sa mise en œuvre, notre idée s’est inspirée de la communication interdisciplinaire entre l’infographie, la science des matériaux et la mécanique. L’hyperplan caractéristique est inspiré du diagramme de phase ternaire en science des matériaux. »

Un cadre d'apprentissage par renforcement par imitation-relaxation pour la locomotion d'un robot à quatre pattes

Statistiques de la vitesse maximale et de la masse corporelle des mammifères et des robots quadrupèdes en échelles logarithmiques. Crédit : Jin et al

Contrairement aux méthodes d’apprentissage par renforcement conventionnelles, l’approche proposée par Yongbin et ses collègues optimise les différents objectifs de la locomotion du robot à pattes par étapes. De plus, lors de l’évaluation de la robustesse de leur système, les chercheurs ont introduit la notion de « stabilité stochastique », une mesure qui, espéraient-ils, refléterait mieux les performances d’un robot dans des environnements réels (c’est-à-dire par opposition à des simulations).

« Nous essayons de comprendre les caractéristiques des différentes fonctions de sous-récompense, puis de remodeler la fonction de récompense finale pour éviter l’influence de l’extremum local », a expliqué Yongbin. « D’un autre point de vue, l’efficacité de cette méthode réside dans le processus d’apprentissage facile à difficile. L’imitation de mouvement fournit une bonne estimation initiale de la solution optimale. »

Les chercheurs ont évalué leur approche dans une série de tests, à la fois dans des simulations d’un robot à quatre pattes et en exécutant leur analyse de stabilité stochastique. Ils ont découvert que cela permettait au robot à quatre pattes, qui ressemble au célèbre robot Mini-Cheetah créé par le MIT, de fonctionner à une vitesse de 5,0 m/s.-1sans perdre son équilibre.

« Je pense qu’il y a deux contributions principales à ce travail », a déclaré Yongbin. « La première est la méthode hyperplane proposée, qui nous aide à explorer la nature de la récompense dans l’espace des paramètres à très haute dimension, guidant ainsi la conception de la récompense pour le contrôleur basé sur RL. La seconde est la méthode d’évaluation de la stabilité quantitative qui essayer de combler le fossé sim-réel. »

Le cadre introduit par cette équipe de chercheurs pourrait bientôt être mis en œuvre et évalué dans différents contextes du monde réel, à l’aide de divers robots à pattes physiques. En fin de compte, cela pourrait aider à améliorer la locomotion des robots à pattes existants et nouvellement créés, leur permettant de se déplacer plus rapidement, d’accomplir des missions en moins de temps et d’atteindre les emplacements cibles plus efficacement.

« Jusqu’à présent, la métrique de stabilité basée sur l’entropie est une méthode a posteriori », a ajouté Yongbin. « À l’avenir, nous introduirons directement des indicateurs de stabilité dans le processus d’apprentissage des contrôleurs et nous nous efforcerons de rattraper l’agilité des créatures naturelles. »