Une méthode basée sur l’apprentissage par renforcement pour planifier le chemin de couverture et la recharge des véhicules aériens sans pilote
Les véhicules aériens sans pilote (UAV), communément appelés drones, se sont déjà révélés inestimables pour résoudre un large éventail de problèmes du monde réel. Par exemple, ils peuvent aider les humains dans les livraisons, la surveillance de l’environnement, la réalisation de films et les missions de recherche et de sauvetage.
Bien que les performances des drones se soient considérablement améliorées au cours de la dernière décennie, bon nombre d’entre eux ont encore une durée de vie de batterie relativement courte, de sorte qu’ils peuvent se retrouver à court d’énergie et cesser de fonctionner avant d’avoir terminé une mission. De nombreuses études récentes dans le domaine de la robotique ont ainsi visé à améliorer la durée de vie des batteries de ces systèmes, tout en développant des techniques informatiques leur permettant d’accomplir des missions et de planifier leurs itinéraires le plus efficacement possible.
Des chercheurs de l’Université technique de Munich (TUM) et de l’Université de Californie à Berkeley (UC Berkeley) ont tenté de concevoir de meilleures solutions pour résoudre le problème de recherche généralement sous-jacent, connu sous le nom de planification du chemin de couverture (CPP). Dans un article récent pré-publié sur arXivils ont introduit un nouvel outil basé sur l’apprentissage par renforcement qui optimise les trajectoires des drones tout au long d’une mission, y compris les visites aux bornes de recharge lorsque leur batterie est faible.
« Les racines de cette recherche remontent à 2016, lorsque nous avons commencé nos recherches sur les « drones solaires à longue endurance », a déclaré à Tech Xplore Marco Caccamo, l’un des chercheurs qui ont mené l’étude.
« Des années après le début de cette recherche, il est devenu clair que le CPP est un élément clé pour permettre le déploiement d’UAV dans plusieurs domaines d’application comme l’agriculture numérique, les missions de recherche et de sauvetage, la surveillance et bien d’autres. » Des facteurs doivent être pris en compte, notamment l’évitement des collisions, le champ de vision de la caméra et la durée de vie de la batterie. Cela nous a motivés à étudier l’apprentissage par renforcement comme solution potentielle pour intégrer tous ces facteurs. »
Dans leurs travaux antérieurs, Caccamo et ses collègues ont tenté d’aborder des versions plus simples du problème du RPC en utilisant l’apprentissage par renforcement. Plus précisément, ils ont envisagé un scénario dans lequel un drone avait des contraintes de batterie et devait accomplir une mission dans un laps de temps limité (c’est-à-dire avant que sa batterie ne soit épuisée).
Dans ce scénario, les chercheurs ont utilisé l’apprentissage par renforcement pour permettre au drone d’accomplir autant de mission ou de se déplacer dans autant d’espace que possible avec une seule charge de batterie. En d’autres termes, le robot ne pouvait pas interrompre la mission pour recharger sa batterie, puis repartir là où il s’était arrêté auparavant.
« De plus, l’agent devait apprendre les contraintes de sécurité, c’est-à-dire l’évitement des collisions et les limites de batterie, ce qui lui permettait d’obtenir des trajectoires sûres la plupart du temps, mais pas à chaque fois », a expliqué Alberto Sangiovanni-Vincentelli. « Dans notre nouvel article, nous voulions étendre le problème du CPP en permettant à l’agent de se recharger afin que les drones considérés dans ce modèle puissent couvrir un espace beaucoup plus grand. De plus, nous voulions garantir que l’agent ne viole pas les contraintes de sécurité, un exigence évidente dans un scénario du monde réel. »
L’un des principaux avantages des approches d’apprentissage par renforcement est qu’elles ont tendance à bien se généraliser à différents cas et situations. Cela signifie qu’après une formation aux méthodes d’apprentissage par renforcement, les modèles peuvent souvent aborder des problèmes et des scénarios qu’ils n’avaient jamais rencontrés auparavant.
Cette capacité à généraliser dépend grandement de la manière dont un problème est présenté au modèle. Plus précisément, le modèle d’apprentissage profond devrait être capable d’examiner la situation actuelle de manière structurée, par exemple sous la forme d’une carte.
Pour aborder le nouveau scénario du RPC envisagé dans leur article, Caccamo, Sangiovanni-Vincentelli et leurs collègues ont développé un nouveau modèle basé sur l’apprentissage par renforcement. Ce modèle observe et traite essentiellement l’environnement dans lequel évolue un drone, représenté sous forme de carte, et le centre autour de sa position.
Par la suite, le modèle compresse l’intégralité de la « carte centrée » en une carte globale avec une résolution inférieure et une carte locale en pleine résolution montrant uniquement le voisinage immédiat du robot. Ces deux cartes sont ensuite analysées pour optimiser les trajectoires du drone et décider de ses actions futures.
« Grâce à notre pipeline unique de traitement de cartes, l’agent est capable d’extraire les informations dont il a besoin pour résoudre le problème de couverture dans des scénarios invisibles », a déclaré Mirco Theile. « De plus, pour garantir que l’agent ne viole pas les contraintes de sécurité, nous avons défini un modèle de sécurité qui détermine lesquelles des actions possibles sont sûres et lesquelles ne le sont pas. Grâce à une approche de masquage d’action, nous exploitons ce modèle de sécurité en définissant un ensemble de actions sûres dans chaque situation rencontrée par l’agent et laisser l’agent choisir la meilleure action parmi les plus sûres.
Les chercheurs ont évalué leur nouvel outil d’optimisation lors d’une série de tests initiaux et ont constaté qu’il surpassait considérablement une méthode de planification de trajectoire de base. Notamment, leur modèle s’est bien généralisé à différentes zones cibles et cartes connues, et pourrait également aborder certains scénarios avec des cartes invisibles.
« Le problème du RPC avec recharge est beaucoup plus difficile que celui sans recharge, car il s’étend sur un horizon temporel beaucoup plus long », a déclaré Theile. « L’agent doit prendre des décisions de planification à long terme, par exemple décider quelles zones cibles il doit couvrir maintenant et lesquelles il peut couvrir lors de son retour pour se recharger. Nous montrons qu’un agent avec des observations basées sur des cartes et un masquage d’action basé sur un modèle de sécurité , et des facteurs supplémentaires, tels que la planification des facteurs d’actualisation et l’historique des positions, peuvent prendre des décisions solides à long terme.
La nouvelle approche basée sur l’apprentissage par renforcement introduite par cette équipe de recherche garantit la sécurité d’un drone pendant son fonctionnement, car elle permet uniquement à l’agent de sélectionner des trajectoires et des actions sûres. Parallèlement, cela pourrait améliorer la capacité des drones à accomplir efficacement leurs missions, en optimisant leurs trajectoires vers des points d’intérêt, des emplacements cibles et des stations de recharge lorsque leur batterie est faible.
Cette étude récente pourrait inspirer le développement de méthodes similaires pour résoudre les problèmes liés au RPC. Le code et les logiciels de l’équipe sont accessibles au public sur GitHub. Ainsi, d’autres équipes dans le monde pourraient bientôt les implémenter et les tester sur leurs drones.
« Cet article et nos travaux antérieurs ont résolu le problème du RPC dans un monde à grille discrète », a ajouté Theile. « Pour les travaux futurs, afin de nous rapprocher des applications du monde réel, nous étudierons comment intégrer les éléments cruciaux, les observations cartographiques et le masquage des actions de sécurité dans le monde continu. Résoudre le problème dans l’espace continu permettra son déploiement dans le monde réel. des missions mondiales telles que l’agriculture intelligente ou la surveillance de l’environnement, qui, nous l’espérons, pourront avoir un grand impact.