Plusieurs « moi » d’agents modulaires stimulent l’apprentissage de l’IA
Comment et pourquoi nous prenons des milliers de décisions chaque jour est depuis longtemps un domaine de recherche et de commentaire populaire.
« Irrationnel prévisible : les forces cachées qui façonnent nos décisions », par Dan Ariely ; « Nudge : améliorer les décisions concernant la santé, la richesse et le bonheur », par Richard Thaler et Cass Sunstein ; et « Simply Rational: Decision Making in the Real World », de Gerd Gigerenzer, ne sont que quelques-uns des nombreux livres analysant les mécanismes de la prise de décision qui figurent sur les listes de best-sellers actuels.
Une équipe de chercheurs du Princeton Neuroscience Institute s’est jointe à la discussion avec un article examinant le processus décisionnel en matière d’apprentissage automatique. Ils disent avoir trouvé une approche qui améliore le processus à agent unique couramment appliqué.
Dans un article publié le 3 juillet dans Actes de l’Académie nationale des sciencesles chercheurs ont décrit une étude comparant les approches d’apprentissage par renforcement utilisées dans les systèmes d’agents d’IA uniques et modulaires multi-agents d’IA.
Ils ont formé des agents d’apprentissage par renforcement profond dans un simple jeu de survie sur une grille à deux dimensions. Les agents ont été formés pour rechercher diverses ressources cachées sur le terrain et pour maintenir des niveaux d’approvisionnement suffisants pour l’emporter.
Un agent, considéré comme le « cerveau unifié » ou « moi », opérait de manière standard, adoptant une approche étape par étape pour évaluer chaque objectif et, par essais et erreurs, apprenant quelles étaient les meilleures solutions à chaque étape de le chemin.
L’agent modulaire, cependant, s’appuyait sur la contribution de sous-agents qui avaient des objectifs plus étroitement définis et avaient leurs propres expériences, réussites et échecs uniques. Une fois que les entrées des multiples modules ont été évaluées dans un seul « cerveau », l’agent a fait des choix sur la façon de procéder.
Les chercheurs ont comparé la configuration aux principes impliqués dans le débat classique de longue date sur la façon dont l’individu gère des besoins et des objectifs contradictoires.
Qu’une décision « repose sur un seul agent monolithique (ou « soi ») qui prend en compte de manière intégrée tous les besoins, ou plutôt reflète un processus émergent de concurrence entre plusieurs agents modulaires (c’est-à-dire, « plusieurs soi ») … imprègne la mythologie et la littérature « , a déclaré le chercheur principal Jonathan Cohen. « C’est un centre de travail théorique et empirique dans pratiquement toutes les disciplines scientifiques qui étudient le comportement agentique, des neurosciences, de la psychologie, de l’économie et de la sociologie à l’intelligence artificielle et à l’apprentissage automatique. »
L’agent singulier a atteint les objectifs du jeu après 30 000 étapes d’entraînement. L’agent modulaire, cependant, a appris plus rapidement, réalisant des progrès significatifs après seulement 5 000 étapes d’apprentissage.
« Par rapport à l’approche monolithique standard, les agents modulaires étaient bien meilleurs pour maintenir l’homéostasie d’un ensemble de variables internes dans des environnements simulés, à la fois statiques et changeants », a déclaré Cohen.
L’équipe a conclu que la configuration modulaire permettait aux sous-agents qui se concentraient sur des objectifs limités de s’adapter plus rapidement aux défis environnementaux.
« Les actions déterminées par les besoins d’un sous-agent ont servi de source d’exploration pour les autres », a déclaré Cohen, « leur permettant de découvrir la valeur d’actions qu’ils n’auraient peut-être pas choisies autrement dans un état donné ».
Il a également expliqué que si l’approche monolithique luttait contre « la malédiction de la dimensionnalité » – la croissance exponentielle des options à mesure que la complexité de l’environnement augmentait – les agents modulaires, des « spécialistes » aux objectifs limités, se concentraient sur des tâches individuelles plus petites et étaient mieux à même de s’adapter rapidement aux changements environnementaux.
« Nous montrons que la conception d’un agent de manière modulaire comme un ensemble de sous-agents, chacun dédié à un besoin distinct, a puissamment amélioré la capacité de l’agent à satisfaire ses besoins globaux », indique le document.
En s’adaptant plus efficacement et plus rapidement à l’évolution des environnements et des objectifs, ont ajouté les chercheurs, l’approche modulaire « peut également expliquer pourquoi les humains ont longtemps été décrits comme étant constitués de ‘mois multiples' ».