Une nouvelle approche pour améliorer la navigation des robots dans les environnements encombrés

Une trajectoire de collision d’un robot entraîné à l’aide d’une stratégie d’exploration standard (à gauche) et une trajectoire réussie d’un robot entraîné avec des récompenses intrinsèques dans les mêmes scénarios. Crédit : Martinez-Baselga, Riazuelo & Montano

Alors que les robots sont devenus de plus en plus avancés au cours des dernières années, la plupart d’entre eux sont encore incapables de naviguer de manière fiable dans des espaces très encombrés, tels que les espaces publics ou les routes en milieu urbain. Cependant, pour être mis en œuvre à grande échelle et dans les villes intelligentes du futur, les robots devront être capables de naviguer dans ces environnements de manière fiable et sûre, sans entrer en collision avec des humains ou des objets à proximité.

Des chercheurs de l’Université de Saragosse et de l’Institut de recherche en ingénierie d’Aragon en Espagne ont récemment proposé une nouvelle approche basée sur l’apprentissage automatique qui pourrait améliorer la navigation des robots dans les environnements surpeuplés intérieurs et extérieurs. Cette approche, présentée dans un article prépublié sur le arXiv serveur, implique l’utilisation de récompenses intrinsèques, qui sont essentiellement des « récompenses » qu’un agent d’IA reçoit lorsqu’il exécute des comportements qui ne sont pas strictement liés à la tâche qu’il essaie d’accomplir.

« La navigation autonome des robots est un problème ouvert non résolu, en particulier dans les environnements non structurés et dynamiques, où un robot doit éviter les collisions avec des obstacles dynamiques et atteindre l’objectif », a déclaré à Tech Xplore Diego Martinez Baselga, l’un des chercheurs qui a mené l’étude. . « Les algorithmes d’apprentissage par renforcement profond se sont avérés très performants en termes de taux de réussite et de temps pour atteindre l’objectif, mais il reste encore beaucoup à améliorer. »

La méthode introduite par Martinez Baselga et ses collègues utilise des récompenses intrinsèques, des récompenses conçues pour augmenter la motivation d’un agent à explorer de nouveaux « états » (c’est-à-dire des interactions avec son environnement) ou pour réduire le niveau d’incertitude dans un scénario donné afin que les agents puissent mieux prédire les conséquences de leurs actes. Dans le cadre de leur étude, les chercheurs ont notamment utilisé ces récompenses pour inciter les robots à visiter des zones inconnues de son environnement et à explorer son environnement de différentes manières, afin qu’il puisse apprendre à s’y retrouver plus efficacement au fil du temps.

Une nouvelle approche pour améliorer la navigation des robots dans les environnements encombrés — Métriques d’entraînement d’un algorithme de pointe par rapport au même algorithme avec ICM (récompenses intrinsèques) en plus. Crédit : Martinez-Baselga, Riazuelo & Montano

« La plupart des travaux d’apprentissage par renforcement profond pour la navigation de masse de l’état de l’art se concentrent sur l’amélioration des réseaux et le traitement de ce que le robot détecte », a déclaré Martinez Baselga. « Mon approche étudie comment explorer l’environnement pendant l’entraînement pour améliorer le processus d’apprentissage. En entraînement, au lieu d’essayer des actions aléatoires ou optimales, le robot essaie de faire ce dont il pense qu’il peut en apprendre davantage. »

Martinez Baselga et ses collègues ont évalué le potentiel d’utilisation des récompenses intrinsèques pour aborder la navigation des robots dans des espaces surpeuplés en utilisant deux approches distinctes. Le premier intègre un module dit « de curiosité intrinsèque » (ICM), tandis que le second repose sur une série d’algorithmes connus sous le nom d’encodeurs aléatoires pour une exploration efficace (RE3).

Les chercheurs ont évalué ces modèles dans une série de simulations, qui ont été exécutées sur le Simulateur CrowdNav. Ils ont constaté que les deux approches proposées intégrant des récompenses intrinsèques surpassaient les méthodes de pointe précédemment développées pour la navigation de robots dans des espaces encombrés.

À l’avenir, cette étude pourrait encourager d’autres roboticiens à utiliser des récompenses intrinsèques lors de la formation de leurs robots, afin d’améliorer leur capacité à faire face à des circonstances imprévues et à se déplacer en toute sécurité dans des environnements hautement dynamiques. De plus, les deux modèles basés sur les récompenses intrinsèques testés par Martinez Baselga et ses collègues pourraient bientôt être intégrés et testés dans de vrais robots, pour valider davantage leur potentiel.

« Les résultats montrent qu’en appliquant ces stratégies d’exploration intelligentes, le robot apprend plus vite et la politique finale apprise est meilleure ; et qu’elles pourraient être appliquées en plus des algorithmes existants pour les améliorer », a ajouté Martinez Baselga. « Dans mes prochaines études, je prévois d’améliorer l’apprentissage par renforcement profond dans la navigation des robots pour la rendre plus sûre et plus fiable, ce qui est très important pour l’utiliser dans le monde réel. »