L'algorithme d'apprentissage par renforcement fournit un moyen efficace de former des agents d'IA plus fiables

L'algorithme d'apprentissage par renforcement fournit un moyen efficace de former des agents d'IA plus fiables

Des domaines allant de la robotique à la médecine en passant par les sciences politiques tentent de former les systèmes d’IA à prendre des décisions significatives de toutes sortes. Par exemple, l’utilisation d’un système d’IA pour contrôler intelligemment la circulation dans une ville encombrée pourrait aider les automobilistes à atteindre leur destination plus rapidement, tout en améliorant la sécurité ou la durabilité.

Malheureusement, apprendre à un système d’IA à prendre de bonnes décisions n’est pas une tâche facile.

Les modèles d’apprentissage par renforcement, qui sous-tendent ces systèmes décisionnels d’IA, échouent encore souvent lorsqu’ils sont confrontés à des variations, même minimes, dans les tâches pour lesquelles ils sont formés. Dans le cas de la circulation, un modèle peut avoir du mal à contrôler un ensemble d'intersections avec des limites de vitesse, des nombres de voies ou des schémas de circulation différents.

Pour renforcer la fiabilité des modèles d'apprentissage par renforcement pour les tâches complexes et variables, les chercheurs du MIT ont introduit un algorithme plus efficace pour les entraîner. Les résultats sont publiés sur le arXiv serveur de préimpression.

L'algorithme sélectionne stratégiquement les meilleures tâches pour former un agent IA afin qu'il puisse effectuer efficacement toutes les tâches d'un ensemble de tâches connexes. Dans le cas du contrôle des feux de circulation, chaque tâche pourrait être une intersection dans un espace de tâches incluant toutes les intersections de la ville.

En se concentrant sur un plus petit nombre d'intersections qui contribuent le plus à l'efficacité globale de l'algorithme, cette méthode maximise les performances tout en maintenant le coût de formation à un faible niveau.

Les chercheurs ont découvert que leur technique était entre cinq et 50 fois plus efficace que les approches standard sur un ensemble de tâches simulées. Ce gain d’efficacité aide l’algorithme à apprendre plus rapidement une meilleure solution, améliorant ainsi les performances de l’agent IA.

« Nous avons pu constater d'incroyables améliorations de performances, avec un algorithme très simple, en sortant des sentiers battus. Un algorithme qui n'est pas très compliqué a plus de chances d'être adopté par la communauté car il est plus facile à mettre en œuvre et plus facile à mettre en œuvre pour les autres. comprendre », déclare l'auteure principale Cathy Wu, professeure agrégée de développement de carrière Thomas D. et Virginia W. Cabot en génie civil et environnemental (CEE) et à l'Institute for Data, Systems, and Society (IDSS), et membre du Laboratoire pour les systèmes d’information et de décision (LIDS).

Elle est rejointe dans l'article par l'auteur principal Jung-Hoon Cho, étudiant diplômé du CEE ; Vindula Jayawardana, étudiante diplômée au Département de génie électrique et d'informatique (EECS) ; et Sirui Li, un étudiant diplômé de l'IDSS. La recherche sera présentée à la Conférence sur les systèmes de traitement de l'information neuronale.

Trouver un juste milieu

Pour entraîner un algorithme permettant de contrôler les feux de circulation à de nombreuses intersections d’une ville, un ingénieur choisit généralement entre deux approches principales. Elle peut entraîner indépendamment un algorithme pour chaque intersection, en utilisant uniquement les données de cette intersection, ou entraîner un algorithme plus vaste en utilisant les données de toutes les intersections, puis l'appliquer à chacune d'entre elles.

Mais chaque approche comporte son lot d’inconvénients. La formation d'un algorithme distinct pour chaque tâche (comme une intersection donnée) est un processus long qui nécessite une énorme quantité de données et de calculs, tandis que la formation d'un algorithme pour toutes les tâches conduit souvent à des performances médiocres.

Wu et ses collaborateurs ont cherché un juste milieu entre ces deux approches.

Pour leur méthode, ils choisissent un sous-ensemble de tâches et entraînent indépendamment un algorithme pour chaque tâche. Plus important encore, ils sélectionnent stratégiquement les tâches individuelles les plus susceptibles d’améliorer les performances globales de l’algorithme sur toutes les tâches.

Ils exploitent une astuce courante dans le domaine de l’apprentissage par renforcement appelée apprentissage par transfert zéro, dans laquelle un modèle déjà formé est appliqué à une nouvelle tâche sans être davantage formé. Avec l'apprentissage par transfert, le modèle fonctionne souvent remarquablement bien sur la tâche du nouveau voisin.

« Nous savons qu'il serait idéal de s'entraîner sur toutes les tâches, mais nous nous demandions si nous pouvions nous entraîner sur un sous-ensemble de ces tâches, appliquer le résultat à toutes les tâches tout en constatant une augmentation des performances », explique Wu.

Pour identifier les tâches à sélectionner pour maximiser les performances attendues, les chercheurs ont développé un algorithme appelé Model-Based Transfer Learning (MBTL).

L'algorithme MBTL comporte deux éléments. D’une part, il modélise les performances de chaque algorithme s’il était formé indépendamment sur une tâche. Il modélise ensuite l'ampleur de la dégradation des performances de chaque algorithme s'il était transféré à une autre tâche, un concept connu sous le nom de performance de généralisation.

La modélisation explicite des performances de généralisation permet à MBTL d'estimer la valeur de la formation sur une nouvelle tâche.

MBTL effectue cela de manière séquentielle, en choisissant en premier la tâche qui conduit au gain de performances le plus élevé, puis en sélectionnant les tâches supplémentaires qui fournissent les améliorations marginales ultérieures les plus importantes aux performances globales.

Étant donné que MBTL se concentre uniquement sur les tâches les plus prometteuses, il peut considérablement améliorer l’efficacité du processus de formation.

Réduire les coûts de formation

Lorsque les chercheurs ont testé cette technique sur des tâches simulées, notamment le contrôle des feux de circulation, la gestion des avis de vitesse en temps réel et l'exécution de plusieurs tâches de contrôle classiques, elle s'est avérée cinq à 50 fois plus efficace que les autres méthodes.

Cela signifie qu’ils pourraient arriver à la même solution en s’entraînant sur beaucoup moins de données. Par exemple, avec une efficacité 50 fois supérieure, l’algorithme MBTL pourrait s’entraîner sur seulement deux tâches et atteindre les mêmes performances qu’une méthode standard utilisant les données de 100 tâches.

« Du point de vue des deux approches principales, cela signifie que les données des 98 autres tâches n'étaient pas nécessaires ou que la formation sur les 100 tâches est source de confusion pour l'algorithme, de sorte que les performances finissent par être pires que les nôtres », explique Wu.

Avec MBTL, ajouter même une petite quantité de temps de formation supplémentaire pourrait conduire à de bien meilleures performances.

À l’avenir, les chercheurs prévoient de concevoir des algorithmes MBTL pouvant s’étendre à des problèmes plus complexes, tels que les espaces de tâches de grande dimension. Ils souhaitent également appliquer leur approche à des problèmes du monde réel, notamment dans les systèmes de mobilité de nouvelle génération.