Une nouvelle approche basée sur l'IA pour contrôler les robots autonomes

Les chercheurs du MIT ont développé une technique d’apprentissage automatique qui peut conduire une voiture ou piloter un avion de manière autonome dans un environnement très difficile. « stabiliser-éviter » scénario, dans lequel le véhicule doit stabiliser sa trajectoire pour arriver et rester dans une certaine zone d’objectif, tout en évitant les obstacles. Crédit : Institut de technologie du Massachusetts

Dans le film « Top Gun : Maverick, » Maverick, joué par Tom Cruise, est chargé de former de jeunes pilotes pour accomplir une mission apparemment impossible – faire voler leurs jets profondément dans un canyon rocheux, en restant si bas au sol qu’ils ne peuvent pas être détectés par radar, puis rapidement sortir du canyon à un angle extrême, en évitant les parois rocheuses. Spoiler alert : Avec l’aide de Maverick, ces pilotes humains accomplissent leur mission.

Une machine, en revanche, aurait du mal à accomplir la même tâche palpitante. Pour un avion autonome, par exemple, le chemin le plus simple vers la cible est en conflit avec ce que la machine doit faire pour éviter d’entrer en collision avec les parois du canyon ou de ne pas être détectée. De nombreuses méthodes d’IA existantes ne sont pas en mesure de surmonter ce conflit, connu sous le nom de problème de stabilisation-évitement, et seraient incapables d’atteindre leur objectif en toute sécurité.

Les chercheurs du MIT ont développé une nouvelle technique qui peut résoudre les problèmes complexes de stabilisation-évitement mieux que d’autres méthodes. Leur approche d’apprentissage automatique correspond ou dépasse la sécurité des méthodes existantes tout en offrant une stabilité décuplée, ce qui signifie que l’agent atteint et reste stable dans sa zone d’objectif.

Dans une expérience qui rendrait Maverick fier, leur technique a efficacement piloté un avion à réaction simulé à travers un couloir étroit sans s’écraser au sol.

« Il s’agit d’un problème difficile et de longue date. Beaucoup de gens l’ont regardé mais ne savaient pas comment gérer une dynamique aussi complexe et de grande dimension, » déclare Chuchu Fan, professeur adjoint Wilson d’aéronautique et d’astronautique, membre du Laboratoire des systèmes d’information et de décision (LIDS) et auteur principal d’un nouvel article sur cette technique.

Fan est rejoint par l’auteur principal Oswin So, un étudiant diplômé. L’article sera présenté lors de la conférence Robotics: Science and Systems prévue du 10 au 14 juillet en Corée. Le document est disponible sur le arXiv serveur de pré-impression.

Le défi stabiliser-éviter

De nombreuses approches s’attaquent aux problèmes complexes de stabilisation-évitement en simplifiant le système afin qu’ils puissent le résoudre avec des mathématiques simples, mais les résultats simplifiés ne résistent souvent pas à la dynamique du monde réel.

Des techniques plus efficaces utilisent l’apprentissage par renforcement, une méthode d’apprentissage automatique dans laquelle un agent apprend par essais et erreurs avec une récompense pour un comportement qui le rapproche d’un objectif. Mais il y a vraiment deux objectifs ici – rester stable et éviter les obstacles – et trouver le bon équilibre est fastidieux.

Les chercheurs du MIT ont décomposé le problème en deux étapes. Tout d’abord, ils recadrent le problème de stabilisation-évitement comme un problème d’optimisation contrainte. Dans cette configuration, la résolution de l’optimisation permet à l’agent d’atteindre et de stabiliser son objectif, ce qui signifie qu’il reste dans une certaine région. En appliquant des contraintes, ils s’assurent que l’agent évite les obstacles, explique So.

Ensuite, pour la deuxième étape, ils reformulent ce problème d’optimisation sous contrainte en une représentation mathématique connue sous le nom de forme épigraphique et le résolvent à l’aide d’un algorithme d’apprentissage par renforcement profond. La forme épigraphique leur permet de contourner les difficultés rencontrées par d’autres méthodes lors de l’utilisation de l’apprentissage par renforcement.

« Mais l’apprentissage par renforcement profond n’est pas conçu pour résoudre la forme épigraphique d’un problème d’optimisation, nous ne pouvions donc pas simplement le brancher à notre problème. Nous avons dû dériver les expressions mathématiques qui fonctionnent pour notre système. Une fois que nous avons eu ces nouvelles dérivations, nous les avons combinées avec des astuces d’ingénierie existantes utilisées par d’autres méthodes, » Ainsi dit.

Aucun point pour la deuxième place

Pour tester leur approche, ils ont conçu un certain nombre d’expériences de contrôle avec différentes conditions initiales. Par exemple, dans certaines simulations, l’agent autonome doit atteindre et rester à l’intérieur d’une région cible tout en effectuant des manœuvres drastiques pour éviter les obstacles qui se trouvent sur une trajectoire de collision avec elle.

Comparée à plusieurs lignes de base, leur approche était la seule capable de stabiliser toutes les trajectoires tout en maintenant la sécurité. Pour pousser leur méthode encore plus loin, ils l’ont utilisée pour piloter un avion à réaction simulé dans un scénario que l’on pourrait voir dans un « Pistolet supérieur » film. Le jet devait se stabiliser vers une cible près du sol tout en maintenant une altitude très basse et en restant dans un couloir de vol étroit.

Ce modèle de jet simulé était open source en 2018 et avait été conçu par des experts en contrôle de vol comme un défi de test. Les chercheurs pourraient-ils créer un scénario que leur contrôleur ne pourrait pas piloter ? Mais le modèle était si compliqué qu’il était difficile de travailler avec, et il ne pouvait toujours pas gérer des scénarios complexes, dit Fan.

Le contrôleur des chercheurs du MIT a pu empêcher le jet de s’écraser ou de caler tout en se stabilisant vers l’objectif bien mieux que n’importe laquelle des lignes de base.

À l’avenir, cette technique pourrait être un point de départ pour concevoir des contrôleurs pour des robots hautement dynamiques qui doivent répondre à des exigences de sécurité et de stabilité, comme les drones de livraison autonomes. Ou il pourrait être mis en œuvre dans le cadre d’un système plus vaste. Peut-être que l’algorithme n’est activé que lorsqu’une voiture dérape sur une route enneigée pour aider le conducteur à retrouver en toute sécurité une trajectoire stable.

Naviguer dans des scénarios extrêmes qu’un humain ne serait pas capable de gérer est là où leur approche brille vraiment, ajoute So.

« Nous pensons qu’un objectif que nous devrions viser en tant que domaine est de donner à l’apprentissage par renforcement les garanties de sécurité et de stabilité dont nous aurons besoin pour nous fournir l’assurance lorsque nous déploierons ces contrôleurs sur des systèmes critiques. Nous pensons qu’il s’agit d’un premier pas prometteur vers la réalisation de cet objectif, » il dit.

À l’avenir, les chercheurs souhaitent améliorer leur technique afin qu’elle soit mieux à même de prendre en compte l’incertitude lors de la résolution de l’optimisation. Ils souhaitent également étudier le fonctionnement de l’algorithme lorsqu’il est déployé sur du matériel, car il y aura des décalages entre la dynamique du modèle et celle du monde réel.

« L’équipe du professeur Fan a amélioré les performances d’apprentissage par renforcement pour les systèmes dynamiques où la sécurité est importante. Au lieu de simplement atteindre un objectif, ils créent des contrôleurs qui garantissent que le système peut atteindre sa cible en toute sécurité et y rester indéfiniment, » dit Stanley Bak, professeur adjoint au Département d’informatique de l’Université de Stony Brook, qui n’a pas participé à cette recherche. « Leur formulation améliorée permet la génération réussie de contrôleurs sûrs pour des scénarios complexes, y compris un modèle d’avion à réaction non linéaire à 17 états conçu en partie par des chercheurs de l’Air Force Research Lab (AFRL), qui intègre des équations différentielles non linéaires avec des tables de portance et de traînée. »