Des chercheurs développent une technique d'apprentissage automatique qui peut apprendre efficacement à contrôler un robot

Des chercheurs développent une technique d’apprentissage automatique qui peut apprendre efficacement à contrôler un robot

Résultats de suivi de trajectoire pour le système PVTOL sur une trajectoire à double boucle. La rangée supérieure qualitative représente les trajectoires en boucle fermée pour chaque méthode superposées avec la trajectoire souhaitée (pointillés noirs). La ligne du bas montre l’erreur de suivi normalisée au fil du temps. Les tracés se déroulent de gauche à droite avec une quantité croissante N de données d’apprentissage étiquetées. Notre méthode SD-LQR apprise est la seule approche basée sur l’apprentissage qui suit avec succès la trajectoire de tous les N. arXiv (2023). DOI : 10.48550/arxiv.2302.02529

Des chercheurs du MIT et de l’Université de Stanford ont mis au point une nouvelle approche d’apprentissage automatique qui pourrait être utilisée pour contrôler un robot, tel qu’un drone ou un véhicule autonome, de manière plus efficace et efficiente dans des environnements dynamiques où les conditions peuvent changer rapidement.

Cette technique pourrait aider un véhicule autonome à apprendre à compenser les conditions de route glissantes pour éviter de déraper, permettre à un robot de vol libre de remorquer différents objets dans l’espace ou permettre à un drone de suivre de près un skieur alpin malgré des vents violents. .

L’approche des chercheurs intègre une certaine structure de la théorie du contrôle dans le processus d’apprentissage d’un modèle de manière à conduire à une méthode efficace de contrôle de dynamiques complexes, telles que celles causées par les impacts du vent sur la trajectoire d’un véhicule volant. Une façon de penser à cette structure est comme un indice qui peut aider à guider la façon de contrôler un système.

« L’objectif de notre travail est d’apprendre la structure intrinsèque de la dynamique du système qui peut être exploitée pour concevoir des contrôleurs stabilisateurs plus efficaces », déclare Navid Azizan, professeur adjoint Esther et Harold E. Edgerton au département de génie mécanique du MIT. et l’Institut des données, des systèmes et de la société (IDSS), et membre du Laboratoire des systèmes d’information et de décision (LIDS). « En apprenant conjointement la dynamique du système et ces structures uniques orientées contrôle à partir des données, nous sommes en mesure de créer naturellement des contrôleurs qui fonctionnent beaucoup plus efficacement dans le monde réel. »

En utilisant cette structure dans un modèle appris, la technique des chercheurs extrait immédiatement un contrôleur efficace du modèle, contrairement à d’autres méthodes d’apprentissage automatique qui nécessitent qu’un contrôleur soit dérivé ou appris séparément avec des étapes supplémentaires. Avec cette structure, leur approche est également capable d’apprendre un contrôleur efficace en utilisant moins de données que les autres approches. Cela pourrait aider leur système de contrôle basé sur l’apprentissage à atteindre de meilleures performances plus rapidement dans des environnements en évolution rapide.

« Ce travail tente de trouver un équilibre entre l’identification de la structure de votre système et le simple apprentissage d’un modèle à partir de données », explique l’auteur principal Spencer M. Richards, étudiant diplômé de l’Université de Stanford. « Notre approche s’inspire de la façon dont les roboticiens utilisent la physique pour dériver des modèles plus simples pour les robots. L’analyse physique de ces modèles produit souvent une structure utile à des fins de contrôle, une structure que vous pourriez manquer si vous essayez simplement d’adapter naïvement un modèle aux données. Au lieu de cela, nous essayons d’identifier une structure utile similaire à partir de données qui indiquent comment mettre en œuvre votre logique de contrôle. »

Les autres auteurs de l’article sont Jean-Jacques Slotine, professeur de génie mécanique et de sciences du cerveau et cognitives au MIT, et Marco Pavone, professeur associé d’aéronautique et d’astronautique à Stanford. La recherche sera présentée lors de la Conférence internationale sur l’apprentissage automatique (ICML) qui se tiendra du 23 au 29 juillet à Honolulu. Une version préimprimée est disponible sur le arXiv serveur.

Apprentissage d’un contrôleur

Déterminer la meilleure façon de contrôler un robot pour accomplir une tâche donnée peut être un problème difficile, même lorsque les chercheurs savent modéliser tout ce qui concerne le système.

Un contrôleur est la logique qui permet à un drone de suivre une trajectoire souhaitée, par exemple. Ce contrôleur indiquerait au drone comment ajuster les forces de son rotor pour compenser l’effet des vents qui peuvent le faire dévier d’une trajectoire stable pour atteindre son objectif.

Ce drone est un système dynamique, un système physique qui évolue dans le temps. Dans ce cas, sa position et sa vitesse changent au fur et à mesure qu’il vole dans l’environnement. Si un tel système est assez simple, les ingénieurs peuvent dériver un contrôleur à la main.

La modélisation manuelle d’un système capture intrinsèquement une certaine structure basée sur la physique du système. Par exemple, si un robot était modélisé manuellement à l’aide d’équations différentielles, celles-ci saisiraient la relation entre la vitesse, l’accélération et la force. L’accélération est le taux de changement de vitesse dans le temps, qui est déterminé par la masse et les forces appliquées au robot.

Mais souvent, le système est trop complexe pour être modélisé exactement à la main. Les effets aérodynamiques, comme la façon dont le vent tourbillonnant pousse un véhicule volant, sont notoirement difficiles à dériver manuellement, explique Richards. Les chercheurs prendraient plutôt des mesures de la position, de la vitesse et de la vitesse du rotor du drone au fil du temps, et utiliseraient l’apprentissage automatique pour adapter un modèle de ce système dynamique aux données.

Mais ces approches n’apprennent généralement pas une structure basée sur le contrôle. Cette structure est utile pour déterminer comment régler au mieux les vitesses du rotor pour diriger le mouvement du drone dans le temps.

Une fois qu’elles ont modélisé le système dynamique, de nombreuses approches existantes utilisent également des données pour apprendre un contrôleur séparé pour le système.

« D’autres approches qui tentent d’apprendre la dynamique et un contrôleur à partir de données en tant qu’entités distinctes sont philosophiquement un peu détachées de la façon dont nous le faisons normalement pour des systèmes plus simples. Notre approche rappelle davantage de dériver des modèles à la main à partir de la physique et de les relier au contrôle,  » dit Richards.

Identification de la structure

L’équipe du MIT et de Stanford a développé une technique qui utilise l’apprentissage automatique pour apprendre le modèle dynamique, mais de manière à ce que le modèle ait une structure prescrite utile pour contrôler le système.

Avec cette structure, ils peuvent extraire un contrôleur directement du modèle dynamique, plutôt que d’utiliser des données pour apprendre un modèle entièrement séparé pour le contrôleur.

« Nous avons constaté qu’au-delà de l’apprentissage de la dynamique, il est également essentiel d’apprendre la structure orientée contrôle qui prend en charge la conception efficace du contrôleur. Notre approche d’apprentissage des factorisations de coefficients dépendant de l’état de la dynamique a surpassé les lignes de base en termes d’efficacité des données et de capacité de suivi, réussi à contrôler efficacement et efficacement la trajectoire du système », déclare Azizan.

Lorsqu’ils ont testé cette approche, leur contrôleur a suivi de près les trajectoires souhaitées, dépassant toutes les méthodes de base. Le contrôleur extrait de leur modèle appris correspondait presque aux performances d’un contrôleur de vérité au sol, qui est construit en utilisant la dynamique exacte du système.

« En faisant des hypothèses plus simples, nous avons obtenu quelque chose qui fonctionnait mieux que d’autres approches de base compliquées », ajoute Richards.

Les chercheurs ont également découvert que leur méthode était efficace en termes de données, ce qui signifie qu’elle atteignait des performances élevées même avec peu de données. Par exemple, il pourrait modéliser efficacement un véhicule à rotor hautement dynamique en utilisant seulement 100 points de données. Les méthodes qui utilisaient plusieurs composants appris ont vu leurs performances chuter beaucoup plus rapidement avec des ensembles de données plus petits.

Cette efficacité pourrait rendre leur technique particulièrement utile dans les situations où un drone ou un robot doit apprendre rapidement dans des conditions en évolution rapide.

De plus, leur approche est générale et pourrait être appliquée à de nombreux types de systèmes dynamiques, des bras robotiques aux engins spatiaux en vol libre opérant dans des environnements à faible gravité.

À l’avenir, les chercheurs s’intéressent au développement de modèles plus interprétables physiquement et capables d’identifier des informations très spécifiques sur un système dynamique, explique Richards. Cela pourrait conduire à des contrôleurs plus performants.

« Malgré son omniprésence et son importance, le contrôle par rétroaction non linéaire reste un art, ce qui le rend particulièrement adapté aux méthodes basées sur les données et sur l’apprentissage. Cet article apporte une contribution significative à ce domaine en proposant une méthode qui apprend conjointement la dynamique du système, un contrôleur, et une structure orientée contrôle », explique Nikolai Matni, professeur adjoint au Département de génie électrique et des systèmes de l’Université de Pennsylvanie, qui n’a pas participé à ce travail.

« Ce que j’ai trouvé particulièrement excitant et convaincant, c’est l’intégration de ces composants dans un algorithme d’apprentissage conjoint, de sorte que la structure orientée contrôle agit comme un biais inductif dans le processus d’apprentissage. Le résultat est un processus d’apprentissage efficace en termes de données qui produit des modèles dynamiques qui profiter d’une structure intrinsèque qui permet un contrôle efficace, stable et robuste. Bien que les contributions techniques de l’article soient elles-mêmes excellentes, c’est cette contribution conceptuelle que je considère comme la plus passionnante et la plus significative », déclare Matni.