Un moyen plus efficace de former des machines pour des situations incertaines du monde réel

Un moyen plus efficace de former des machines pour des situations incertaines du monde réel

Des chercheurs du MIT et d’ailleurs ont développé un algorithme qui détermine automatiquement et dynamiquement si une machine apprenant à accomplir une tâche doit essayer d’imiter son enseignant ou d’explorer par elle-même par essais et erreurs. Cet algorithme a permis aux machines étudiantes simulées d’apprendre des tâches plus rapidement et plus efficacement que d’autres techniques. Crédit : José-Luis Olivares/MIT

Quelqu’un qui apprend à jouer au tennis pourrait embaucher un professeur pour l’aider à apprendre plus rapidement. Parce que cet enseignant est (espérons-le) un grand joueur de tennis, il y a des moments où essayer d’imiter exactement l’enseignant n’aidera pas l’élève à apprendre. Peut-être que le professeur saute haut dans les airs pour retourner habilement une volée. L’élève, incapable de copier cela, pourrait plutôt essayer quelques autres mouvements par lui-même jusqu’à ce qu’il maîtrise les compétences dont il a besoin pour renvoyer des volées.

Les informaticiens peuvent également utiliser des systèmes « enseignants » pour entraîner une autre machine à accomplir une tâche. Mais tout comme avec l’apprentissage humain, la machine étudiante est confrontée au dilemme de savoir quand suivre l’enseignant et quand explorer par elle-même. À cette fin, des chercheurs du MIT et du Technion, l’Institut israélien de technologie, ont développé un algorithme qui détermine automatiquement et indépendamment quand l’élève doit imiter l’enseignant (appelé apprentissage par imitation) et quand il doit plutôt apprendre par essais et erreurs (appelé comme apprentissage par renforcement).

Leur approche dynamique permet à l’étudiant de s’écarter de la copie de l’enseignant lorsque l’enseignant est trop bon ou pas assez bon, mais de revenir ensuite à suivre l’enseignant à un stade ultérieur du processus de formation si cela permet d’obtenir de meilleurs résultats et un apprentissage plus rapide.

Lorsque les chercheurs ont testé cette approche dans des simulations, ils ont constaté que leur combinaison d’apprentissage par essais et erreurs et d’apprentissage par imitation permettait aux étudiants d’apprendre des tâches plus efficacement que les méthodes qui n’utilisaient qu’un seul type d’apprentissage.

Cette méthode pourrait aider les chercheurs à améliorer le processus de formation des machines qui seront déployées dans des situations réelles incertaines, comme un robot entraîné à naviguer à l’intérieur d’un bâtiment qu’il n’a jamais vu auparavant.

« Cette combinaison d’apprentissage par essais et erreurs et de suivi d’un enseignant est très puissante. Elle donne à notre algorithme la capacité de résoudre des tâches très difficiles qui ne peuvent être résolues en utilisant l’une ou l’autre technique individuellement », déclare Idan Shenfeld, ingénieur en électricité et informatique. (EECS) étudiant diplômé et auteur principal d’un article sur cette technique.

Shenfeld a écrit l’article avec les co-auteurs Zhang-Wei Hong, un étudiant diplômé de l’EECS ; Aviv Tamar; professeur adjoint de génie électrique et d’informatique au Technion ; et l’auteur principal Pulkit Agrawal, directeur d’Improbable AI Lab et professeur adjoint au Laboratoire d’informatique et d’intelligence artificielle. La recherche sera présentée à la Conférence internationale sur l’apprentissage automatique.

Trouver un juste équilibre

De nombreuses méthodes existantes qui cherchent à trouver un équilibre entre l’apprentissage par imitation et l’apprentissage par renforcement le font par essais et erreurs par force brute. Les chercheurs choisissent une combinaison pondérée des deux méthodes d’apprentissage, exécutent l’intégralité de la procédure de formation, puis répètent le processus jusqu’à ce qu’ils trouvent l’équilibre optimal. Ceci est inefficace et souvent si coûteux en calcul qu’il n’est même pas faisable.

« Nous voulons des algorithmes fondés sur des principes, impliquant le réglage d’aussi peu de boutons que possible et atteignant des performances élevées – ces principes ont guidé nos recherches », déclare Agrawal.

Pour y parvenir, l’équipe a abordé le problème différemment des travaux antérieurs. Leur solution consiste à former deux étudiants : un avec une combinaison pondérée d’apprentissage par renforcement et d’apprentissage par imitation, et un second qui ne peut utiliser que l’apprentissage par renforcement pour apprendre la même tâche.

L’idée principale est d’ajuster automatiquement et dynamiquement la pondération des objectifs d’apprentissage par renforcement et par imitation du premier élève. C’est là que le deuxième étudiant entre en jeu. L’algorithme des chercheurs compare en permanence les deux étudiants. Si celui qui utilise l’enseignant s’en sort mieux, l’algorithme accorde plus d’importance à l’apprentissage par imitation pour former l’élève, mais si celui qui n’utilise que des essais et des erreurs commence à obtenir de meilleurs résultats, il se concentrera davantage sur l’apprentissage par renforcement.

En déterminant dynamiquement quelle méthode donne les meilleurs résultats, l’algorithme est adaptatif et peut choisir la meilleure technique tout au long du processus de formation. Grâce à cette innovation, il est capable d’enseigner plus efficacement aux étudiants que d’autres méthodes qui ne sont pas adaptatives, dit Shenfeld.

« L’un des principaux défis dans le développement de cet algorithme était qu’il nous a fallu du temps pour réaliser qu’il ne fallait pas former les deux étudiants indépendamment. Il est devenu clair qu’il fallait connecter les agents pour leur faire partager des informations, puis trouver le bon moyen de fonder techniquement cette intuition », déclare Shenfeld.

Résoudre des problèmes difficiles

Pour tester leur approche, les chercheurs ont mis en place de nombreuses expériences de simulation de formation enseignant-élève, comme la navigation dans un labyrinthe de lave pour atteindre l’autre coin d’une grille. Dans ce cas, l’enseignant dispose d’une carte de toute la grille tandis que l’élève ne peut voir qu’un patch devant. Leur algorithme a atteint un taux de réussite presque parfait dans tous les environnements de test et était beaucoup plus rapide que les autres méthodes.

Pour donner à leur algorithme un test encore plus difficile, ils ont mis en place une simulation impliquant une main robotique avec des capteurs tactiles mais sans vision, qui doit réorienter un stylo vers la bonne pose. L’enseignant avait accès à l’orientation réelle du stylet, tandis que l’élève ne pouvait utiliser que des capteurs tactiles pour déterminer l’orientation du stylet.

Leur méthode a surpassé les autres qui n’utilisaient que l’apprentissage par imitation ou uniquement l’apprentissage par renforcement.

La réorientation des objets est l’une des nombreuses tâches de manipulation qu’un futur robot domestique devrait effectuer, une vision vers laquelle travaille le laboratoire Improbable AI, ajoute Agrawal.

L’apprentissage enseignant-élève a été appliqué avec succès pour entraîner des robots à effectuer des manipulations et des déplacements complexes d’objets en simulation, puis à transférer les compétences acquises dans le monde réel. Dans ces méthodes, l’enseignant dispose d’informations privilégiées accessibles depuis la simulation que l’élève n’aura pas lors de son déploiement dans le monde réel. Par exemple, l’enseignant connaîtra la carte détaillée d’un bâtiment que le robot étudiant apprend à naviguer en utilisant uniquement les images capturées par sa caméra.

« Les méthodes actuelles d’apprentissage élève-enseignant en robotique ne tiennent pas compte de l’incapacité de l’élève à imiter l’enseignant et sont donc limitées en termes de performances. La nouvelle méthode ouvre la voie à la construction de robots supérieurs », déclare Agrawal.

Outre de meilleurs robots, les chercheurs pensent que leur algorithme a le potentiel d’améliorer les performances dans diverses applications où l’apprentissage par imitation ou par renforcement est utilisé. Par exemple, les grands modèles de langage tels que GPT-4 sont très bons pour accomplir un large éventail de tâches, donc on pourrait peut-être utiliser le grand modèle en tant qu’enseignant pour former un modèle d’étudiant plus petit pour être encore « meilleur » à une tâche particulière . Une autre direction passionnante consiste à étudier les similitudes et les différences entre les machines et les humains qui apprennent de leurs enseignants respectifs. Une telle analyse pourrait aider à améliorer l’expérience d’apprentissage, disent les chercheurs.

« Ce qui est intéressant [this method] par rapport aux méthodes apparentées, c’est à quel point il semble robuste à divers choix de paramètres et à la variété des domaines dans lesquels il montre des résultats prometteurs », explique Abhishek Gupta, professeur adjoint à l’Université de Washington, qui n’a pas participé à ce travail. l’ensemble des résultats actuels sont en grande partie dans la simulation, je suis très enthousiaste quant aux possibilités futures d’appliquer ce travail à des problèmes impliquant la mémoire et le raisonnement avec différentes modalités telles que la détection tactile. »

« Ce travail présente une approche intéressante pour réutiliser le travail de calcul antérieur dans l’apprentissage par renforcement. En particulier, leur méthode proposée peut tirer parti des politiques d’enseignants sous-optimales comme guide tout en évitant les horaires d’hyperparamètres minutieux requis par les méthodes antérieures pour équilibrer les objectifs d’imitation de l’enseignant par rapport à l’optimisation de la tâche. récompense », ajoute Rishabh Agarwal, chercheur principal chez Google Brain, qui n’a pas non plus participé à cette recherche. « Espérons que ce travail rendrait la réincarnation de l’apprentissage par renforcement avec des politiques apprises moins lourde. »