Robots à pattes Skateboard avec succès avec le cadre d’apprentissage du renforcement
Les robots à pattes, qui sont souvent inspirés par les animaux et les insectes, pourraient aider les humains à effectuer diverses tâches réelles, par exemple, livrer des parcelles ou surveiller des environnements spécifiques. Ces dernières années, les informaticiens ont créé des algorithmes qui permettent à ces robots de marcher à différentes vitesses, de sauter, d’imiter certains des mouvements des animaux et de se déplacer avec une grande agilité.
Des chercheurs du Laboratoire d’autonomie et de robotique de l’autonomie et de la robotique de l’Université du Michigan (Curly Lab) et de la Southern University of Science and Technology ont maintenant développé un cadre basé sur l’apprentissage en renforcement qui permet aux robots à pattes d’utiliser avec succès une planche à roulettes. Ce cadre, décrit dans un article sur le arxiv Le serveur préalable pourrait également être utilisé pour imiter d’autres mouvements complexes du monde réel qui impliquent un contact physique avec les objets à proximité.
« Les approches de locomotion quadrupède existantes ne tiennent pas compte de l’interaction riche en contacts avec les objectifs, tels que le skateboard », a déclaré à Tech Xplore Sangli Teng, auteur correspondant du journal. « Notre travail visait à concevoir un pipeline pour de telles tâches guidées de contact qui méritent d’être étudiées, y compris le skateboard. L’Université du Michigan a une longue histoire de développement de systèmes dynamiques hybrides, qui nous ont inspiré à identifier ces effets hybrides via des approches basées sur les données dans l’IA. »
L’objectif principal des travaux récents de Teng et de ses collègues était de permettre aux robots à pattes d’effectuer des mouvements guidés par contact, y compris le skateboard. Pour y parvenir, ils ont développé un nouveau cadre appelé Discrete-temps Hybrid Automata Learning (DHAL).
« Dynamique hybride » signifie qu’un système peut effectuer des transitions d’état à la fois continues et discrètes. Cela signifie essentiellement qu’il peut se déplacer en douceur et changer soudainement son état au fil du temps.
« Par exemple, lorsqu’une balle rebondissante interagit avec le sol, la balle a une dynamique continue dans l’air et des transitions d’état discrètes lors de la collision avec le sol », a expliqué Teng.
« Pour les systèmes avec plusieurs dynamiques continues et fonctions de transition, il est extrêmement difficile d’identifier le mode discret et la dynamique continue en même temps. En effet. En effet, une transition possible se développe rapidement en ce qui concerne le nombre de transitions discrètes possibles. »
Les transitions brusques décrites par Teng rendent difficile les méthodes de calcul basées sur la régression conventionnelles pour apprendre la dynamique d’un système. DHAL, le cadre développé par les chercheurs, peut identifier ces transitions soudaines, apprenant par la suite chaque segment continu de la dynamique d’un système en utilisant des techniques basées sur la régression, réduisant l’effet discontinu qui a été constaté pour altérer les performances des robots sur des tâches telles que le skateboard.

« Par rapport aux méthodes existantes, DHAL ne nécessite pas d’identification manuelle de la transition discrète ou de la connaissance préalable du nombre des états de transition », a déclaré Teng. « Tout dans DHAL est heuristique et nous avons montré que notre méthode peut identifier de manière autonome la transition de mode de la dynamique. »
Un autre avantage du cadre DHAL est qu’il est très intuitif, garantissant ainsi que les transitions de mode qu’il identifie sont alignées avec celles généralement associées au skateboard. Dans les tests initiaux, les chercheurs ont constaté qu’il permettait aux robots à quatre pattes (c’est-à-dire quadrupèdes) de monter en douceur sur une planche à roulettes et de l’utiliser pour avancer rapidement tout en tirant un petit chariot derrière eux.
« Dans la phase de poussée, de glissement et de mise en place, DHAL publiera automatiquement différentes étiquettes », a déclaré Teng. « Notre méthode peut être appliquée à l’estimation de l’état des systèmes dynamiques hybrides pour savoir si une telle transition se produit. Avec ces informations de transition, le système peut mieux estimer les États pour aider la prise de décision. »
![Efficacité de l'identification du mode. Dans le déploiement du monde réel, nous allumons différentes couleurs de barre lumineuse RVB en fonction du mode pour afficher la commutation entre le mode différent. La figure suivante montre le changement de position articulaire par rapport au temps du test, et la couleur d'arrière-plan est représentée par la couleur du mode correspondant. [H, T, C] indique respectivement les articulations de la hanche, de la cuisse et du mollet. Crédit: ARXIV (2025). Doi: 10.48550 / arxiv.2503.01842 Un nouveau cadre d'apprentissage en renforcement permet au robot à pattes de skateboard](https://simseo.fr/wp-content/uploads/2025/03/1742721587_758_Robots-a-pattes-Skateboard-avec-succes-avec-le-cadre-dapprentissage.jpg)
Le nouveau cadre d’apprentissage par renforcement que Teng et ses collègues ont développé pourraient bientôt ouvrir de nouvelles possibilités pour le déploiement du monde réel de robots à pattes. Par exemple, cela pourrait leur permettre de se déplacer plus rapidement à l’aide d’une planche à roulettes, à fournir des forfaits à travers les environnements urbains, les bureaux à l’intérieur ou les installations de fabrication.
« Nous prévoyons maintenant d’appliquer ce cadre à d’autres scénarios, tels que la manipulation dextère (c’est-à-dire la manipulation d’objets avec plusieurs doigts ou bras) », a ajouté Teng. « DHAL devrait prédire le contact avec plus de précision, permettant ainsi aux algorithmes de planification et de contrôle de prendre de meilleures décisions. »