Le système de contrôle compatible AI aide les drones autonomes à rester sur la cible dans des environnements incertains

Un drone autonome transportant de l'eau pour aider à éteindre un incendie de forêt dans la Sierra Nevada pourrait rencontrer des vents tourbillonnants de Santa Ana qui menacent de le pousser. L'adaptation rapide à ces perturbations inconnues, l'influence présente un énorme défi pour le système de contrôle du vol du drone.

Pour aider un tel drone à rester sur la cible, les chercheurs du MIT ont développé un nouvel algorithme de contrôle adaptatif basé sur l'apprentissage automatique qui pourrait minimiser son écart par rapport à sa trajectoire prévue face à des forces imprévisibles comme les vents en rafale.

L'étude est publiée sur le arxiv serveur de préimprimée.

Contrairement aux approches standard, la nouvelle technique ne nécessite pas que la personne programmer le drone autonome sache quoi que ce soit à l'avance sur la structure de ces perturbations incertaines.

Au lieu de cela, le modèle d'intelligence artificielle du système de contrôle apprend tout ce qu'il a besoin de savoir d'une petite quantité de données d'observation collectées à partir de 15 minutes de vol.

Surtout, la technique détermine automatiquement quel algorithme d'optimisation qu'il devrait utiliser pour s'adapter aux perturbations, ce qui améliore les performances de suivi. Il choisit l'algorithme qui convient le mieux à la géométrie de perturbations spécifiques auxquelles ce drone est confronté.

Les chercheurs forment leur système de contrôle à faire les deux choses simultanément en utilisant une technique appelée méta-apprentissage, qui enseigne au système à s'adapter à différents types de perturbations.

Ensemble, ces ingrédients permettent à leur système de contrôle adaptatif d'atteindre 50% d'erreur de suivi de la trajectoire en moins que les méthodes de base dans les simulations et de mieux fonctionner avec de nouvelles vitesses de vent qu'elle n'a pas vues pendant l'entraînement.

À l'avenir, ce système de contrôle adaptatif pourrait aider les drones autonomes à livrer plus efficacement des parcelles lourdes malgré des vents forts ou surveiller les zones sujettes au feu d'un parc national.

« The concurrent learning of these components is what gives our method its strength. By leveraging meta-learning, our controller can automatically make choices that will be best for quick adaptation, » says Navid Azizan, who is the Esther and Harold E. Edgerton Assistant Professor in the MIT Department of Mechanical Engineering and the Institute for Data, Systems, and Society (IDSS), a principal investigator of the Laboratory for Information and Decision Systems (Couvercles), et l'auteur principal du journal.

Azizan est rejoint sur le journal par l'auteur principal Sunbochen Tang, étudiant diplômé du Département d'aéronautique et d'astronautique, et Haoyuan Sun, étudiant diplômé du Département de génie électrique et d'informatique. La recherche a également été présentée lors de la conférence Learning for Dynamics and Control.

Trouver le bon algorithme

En règle générale, un système de contrôle intègre une fonction qui modélise le drone et son environnement, et comprend certaines informations existantes sur la structure des perturbations potentielles. Mais dans un monde réel rempli de conditions incertaines, il est souvent impossible de concevoir à la main cette structure à l'avance.

De nombreux systèmes de contrôle utilisent une méthode d'adaptation basée sur un algorithme d'optimisation populaire, appelé descente de gradient, pour estimer les parties inconnues du problème et déterminer comment garder le drone aussi près que possible de sa trajectoire cible pendant le vol. Cependant, la descente de gradient n'est qu'un algorithme dans une plus grande famille d'algorithmes disponibles, appelée descente miroir.

« Mirror Descent est une famille générale d'algorithmes, et pour un problème donné, l'un de ces algorithmes peut être plus approprié que les autres. Le nom du jeu est de savoir comment choisir l'algorithme particulier qui convient à votre problème. Dans notre méthode, nous automatisons ce choix », dit Azizan.

Dans leur système de contrôle, les chercheurs ont remplacé la fonction qui contient une certaine structure de perturbations potentielles par un modèle de réseau neuronal qui apprend à les approximer à partir des données. De cette façon, ils n'ont pas besoin d'avoir une structure a priori des vitesses du vent que ce drone pourrait rencontrer à l'avance.

Leur méthode utilise également un algorithme pour sélectionner automatiquement la fonction de miroir du bon miroir tout en apprenant le modèle de réseau neuronal à partir des données, plutôt que de supposer qu'un utilisateur a déjà la fonction idéale. Les chercheurs donnent à cet algorithme une gamme de fonctions à choisir, et il trouve celui qui correspond le mieux au problème à portée de main.

« Choisir une bonne fonction de génération de distance pour construire la bonne adaptation miroir-descente importe beaucoup pour obtenir le bon algorithme pour réduire l'erreur de suivi », ajoute Tang.

Apprendre à s'adapter

Bien que le vent accélère que le drone puisse rencontrer pourrait changer à chaque fois qu'il prend son envol, le réseau neuronal du contrôleur et la fonction miroir doivent rester les mêmes afin qu'ils n'aient pas besoin d'être recomputés à chaque fois.

Pour rendre leur contrôleur plus flexible, les chercheurs utilisent du méta-apprentissage, en lui apprenant à s'adapter en lui montrant une gamme de familles de vitesse du vent pendant la formation.

« Notre méthode peut faire face à différents objectifs car, en utilisant la méta-apprentissage, nous pouvons apprendre une représentation partagée à travers différents scénarios à partir des données », explique Tang.

En fin de compte, l'utilisateur alimente le système de contrôle une trajectoire cible et recalcule continuellement, en temps réel, comment le drone devrait produire la poussée pour le garder aussi près que possible de cette trajectoire tout en s'adaptant aux perturbations incertaines qu'elle rencontre.

Dans les simulations et les expériences du monde réel, les chercheurs ont montré que leur méthode conduisait à une erreur de suivi de la trajectoire nettement moindre que les approches de base à chaque vitesse du vent qu'ils ont testé.

« Même si les troubles du vent sont beaucoup plus forts que nous n'avons vu pendant l'entraînement, notre technique montre qu'elle peut toujours les gérer avec succès », ajoute Azizan.

De plus, la marge par laquelle leur méthode a surpassé les lignes de base a augmenté à mesure que les vitesses de vent s'intensifiaient, montrant qu'elle peut s'adapter aux environnements difficiles.

L'équipe effectue désormais des expériences matérielles pour tester son système de contrôle sur de vrais drones avec des conditions de vent variables et d'autres perturbations.

Ils veulent également étendre leur méthode afin qu'il puisse gérer les perturbations de plusieurs sources à la fois. Par exemple, la modification des vitesses de vent pourrait provoquer le poids d'un colis que le drone transporte pour changer de vol, surtout lorsque le drone transporte des charges utiles de glissement.

Ils veulent également explorer l'apprentissage continu, afin que le drone puisse s'adapter à de nouvelles perturbations sans avoir à recycler également les données qu'elle a vues jusqu'à présent.

« Navid et ses collaborateurs ont développé des travaux révolutionnaires qui combinent le méta-apprentissage avec un contrôle adaptatif conventionnel pour apprendre les fonctionnalités non linéaires des données », explique Babak Hassibi, le professeur de Mose et Lillian S. Bohn de génie électrique et informatique et des sciences mathématiques de Caltech, qui n'a pas été impliquée dans ce travail.

« La clé de leur approche est l'utilisation de techniques de descente miroir qui exploitent la géométrie sous-jacente du problème d'une manière que l'art préalable ne pouvait pas. Leur travail peut contribuer de manière significative à la conception de systèmes autonomes qui doivent fonctionner dans des environnements complexes et incertains. »