Un cadre d'apprentissage par renforcement pour améliorer les capacités de fusion des rampes des véhicules autonomes

22 décembre 2022
caractéristique

Figure expliquant le pipeline d’apprentissage par renforcement de l’équipe. Ils initialisent d’abord les déploiements à partir d’états initiaux aléatoires et exécutent une optimisation sur l’ensemble des trajectoires collectées pour former une politique pour chaque époque. Crédit : Udatha, Lyu & Dolan.

Alors que de nombreuses entreprises automobiles sont aujourd’hui investies dans le développement de voitures autonomes, les véhicules créés jusqu’à présent n’ont pas encore atteint les niveaux de sécurité nécessaires pour leur déploiement à grande échelle. Pour que cela se produise, les véhicules devront être capables de relever une grande variété de défis sur la route de manière sûre et efficace.

Des chercheurs de l’Université Carnegie Mellon ont récemment développé un cadre basé sur l’apprentissage par renforcement (RL) qui pourrait aider à améliorer les performances des véhicules autonomes dans des scénarios de fusion de rampes, des cas où des véhicules sur une bretelle sont déviés sur une route principale. Leur cadre, présenté dans un article prépublié sur arXivpourrait potentiellement contribuer à améliorer la sécurité des véhicules autonomes en ces temps particulièrement saillants, en réduisant le risque d’accidents.

« Le laboratoire du professeur John Dolan à la CMU travaille depuis un certain temps sur diverses applications de conduite autonome », a déclaré Soumith Udatha, l’un des chercheurs qui a développé le modèle, à TechXplore. « L’application sur laquelle nous nous sommes concentrés dans cet article est celle de la fusion des autoroutes en raison des défis liés aux véhicules à grande vitesse, aux conducteurs aux styles variés et aux incertitudes impliquées. »

L’objectif primordial des efforts de recherche d’Udatha et de ses collègues est d’améliorer la sécurité des véhicules autonomes. Dans leur récent article, ils ont spécifiquement tenté de concevoir un cadre qui pourrait capturer efficacement les scénarios de fusion des rampes et planifier les actions d’un véhicule en fonction de ses analyses des incertitudes et des risques possibles.

« Les modèles RL interagissent avec un environnement et collectent des données pour optimiser leurs récompenses, mais cette exploration de données rencontre certains problèmes lorsqu’elle est déployée dans des environnements réels », a expliqué Udatha. « C’est en partie parce que tous les états rencontrés par l’agent ne sont pas sûrs. Nous avons limité notre politique RL avec des fonctions de barrière de contrôle (CBF) pour assurer la sécurité à une distance spécifiée. Ainsi, avec les contraintes environnementales, nous ignorons les états dangereux et améliorons la capacité d’un système à apprendre à naviguer. »

Les CBF sont une classe de méthodes de calcul relativement nouvelles conçues pour améliorer le contrôle sûr des systèmes autonomes. Les CBF peuvent être directement appliqués à différents problèmes d’optimisation, y compris la fusion de rampes. Malgré leurs qualités prometteuses, les optimisations qu’ils effectuent ne tiennent pas compte des données recueillies par un système lors de l’exploration d’un environnement. Les méthodes RL peuvent aider à combler cette lacune.

« Nous avons constaté que notre algorithme peut être étendu aux environnements RL hors ligne et en ligne », a déclaré Udataha. « Étant donné que nous disposons désormais d’énormes quantités de données pour le RL hors ligne, la formation sur des ensembles de données hors ligne peut éventuellement conduire à de meilleurs modèles. Avec nos métriques, nous avons également découvert que l’inclusion de CBF probabilistes en tant que contraintes offre une meilleure sécurité, car elle tient compte de l’incertitude du conducteur dans une mesure. »

Udatha et ses collègues ont testé leur framework dans une série de tests, en utilisant la version en ligne de le simulateur CARLA développé par une équipe de chercheurs d’Intel Labs et du Computer Vision Center de Barcelone. Dans ces simulations, leur approche a obtenu des résultats remarquables, soulignant sa valeur possible pour améliorer la sécurité des véhicules autonomes lors de la fusion des rampes.

« Nous prévoyons maintenant d’étendre nos recherches en formant notre modèle pour fusionner un véhicule autonome avec plusieurs véhicules dans une scène avec des incertitudes pour le conducteur », a ajouté Udatha. « Nous avons également constaté qu’il manque actuellement une référence standard pour comparer diverses approches de fusion des rampes, nous essayons donc simultanément d’établir une référence de fusion des rampes pour NGSIM, un ensemble de données d’autoroute publié par la NHTSA sur l’US I-80 et l’US 101. autoroutes. »