De nouveaux algorithmes pour une navigation robotique intelligente et efficace parmi la foule

De nouveaux algorithmes pour une navigation robotique intelligente et efficace parmi la foule

Les robots de service ont commencé à apparaître dans diverses tâches quotidiennes telles que la livraison de colis, comme chiens-guides pour les malvoyants, comme fonctionnaires dans les aéroports ou, comme on le voit à Joensuu : dans l’inspection des travaux de construction. Les robots sont capables de se déplacer de différentes manières : sur pattes, sur roues ou en volant. Ils connaissent l’itinéraire le plus court ou le plus facile vers la destination. Un chien-guide peut rechercher les horaires de bus ou même commander un taxi en cas de besoin.

Cependant, les robots ont du mal à gérer une chose fondamentale : se déplacer au milieu d’une foule de personnes. Un robot observe l’environnement avec une caméra et d’autres capteurs, mais son mouvement est saccadé avec des changements de direction continus, incluant plusieurs arrêts. Ainsi, les robots ne sont généralement pas autorisés à voyager seuls.

Le problème des robots les plus récents ne réside pas dans la recherche de la destination ou dans l’observation du monde environnant, mais dans les réactions en temps réel de la foule. Les méthodes actuelles nécessitent trop de ressources informatiques et ne sont donc pas adaptées aux applications temps réel où les réactions devraient être rapides.

Dans sa thèse, Chengmin Zhou, MSc, a utilisé des algorithmes d’apprentissage par renforcement (RL) pour la navigation des robots de service. Les algorithmes résolvent les tâches de navigation dans le cas de plusieurs obstacles en mouvement, c’est-à-dire, par exemple, dans une situation où le robot se déplace au milieu d’une foule de personnes et dispose d’un temps limité pour réagir.

La meilleure solution s’est avérée être un algorithme RL sans modèle, qui permet aux robots d’apprendre de leurs expériences historiques. Après une formation ou un apprentissage, les robots sont capables de survivre même dans des situations difficiles. Cependant, l’algorithme RL sans modèle présente de nombreux défis, tels qu’une efficacité d’apprentissage lente (convergence). Dans cette thèse, l’efficacité de l’apprentissage a été améliorée de deux manières différentes :

  1. Utilisation des données collectées lors du fonctionnement pour la formation des robots. Lors du fonctionnement des robots, de nouvelles données en temps réel sont obtenues. Ces données peuvent être combinées avec les données d’entraînement précédentes, améliorant ainsi l’entraînement du robot.
  2. Traduire des informations environnementales. Les informations des capteurs collectées dans l’environnement d’exploitation du robot ne peuvent pas être apprises de manière efficace et précise. Il doit être interprété ou traduit afin que le robot puisse l’apprendre facilement et que les connaissances acquises (modèle formé) puissent être utilisées pour la navigation dans d’autres situations similaires.

La navigation robotique est améliorée sous trois aspects techniques : les actions discrètes (donnant aux robots un choix d’action limité pour choisir l’action suivante), le mélange de données en temps réel et de données historiques et l’exploitation de données relationnelles (en utilisant la relation entre le robot et les obstacles pour entraîner les robots). ). Les algorithmes développés ont été testés à la fois avec des simulations informatiques et dans un environnement de laboratoire à l’Université technologique de Shenzhen, en Chine.

La thèse de doctorat de Chengmin Zhou, MSc, intitulée « Deep Reinforcement Learning for Crowd-Aware Robotic Navigation », sera examinée à la Faculté des sciences, forêts et technologies du parc scientifique de Joensuu, le 19 octobre 2023. L’adversaire sera le professeur Juha Röning. , Université d’Oulu, et le custode sera le professeur Pasi Fränti, Université de Finlande orientale. La langue de la défense publique est l’anglais.