Les scientifiques proposent une méthode d'IA qui intègre les comportements habituels et axés sur un objectif
Les créatures vivantes et les machines pilotées par l’IA doivent agir rapidement et de manière adaptative en réponse aux situations. En psychologie et en neurosciences, le comportement peut être classé en deux types : habituel (rapide et simple mais rigide) et orienté vers un objectif (flexible mais complexe et plus lent).
Daniel Kahneman, lauréat du prix Nobel d'économie, les distingue sous le nom de Système 1 et Système 2. Cependant, un débat est en cours quant à savoir s'il s'agit d'entités indépendantes et conflictuelles ou de composants qui se soutiennent mutuellement.
Des scientifiques de l'Institut des sciences et technologies d'Okinawa (OIST) et de Microsoft Research Asia à Shanghai ont proposé une nouvelle méthode d'IA dans laquelle des systèmes de comportements habituels et axés sur un objectif apprennent à s'entraider.
Grâce à des simulations informatiques imitant l'exploration d'un labyrinthe, la méthode s'adapte rapidement aux environnements changeants et reproduit également le comportement des humains et des animaux après qu'ils aient été habitués pendant une longue période à un certain environnement.
L'étude, publiée dans Communications naturellesouvre non seulement la voie au développement de systèmes qui s’adaptent rapidement et de manière fiable au domaine en plein essor de l’IA, mais fournit également des indices sur la façon dont nous prenons des décisions dans les domaines des neurosciences et de la psychologie.
Les scientifiques ont dérivé un modèle qui intègre des systèmes habituels et orientés vers un objectif pour apprendre le comportement chez les agents d'IA qui effectuent un apprentissage par renforcement, une méthode d'apprentissage basée sur les récompenses et les punitions, basée sur la théorie de « l'inférence active », qui a fait l'objet de recherches. beaucoup d'attention récemment.
Dans l'article, ils ont créé une simulation informatique imitant une tâche dans laquelle des souris explorent un labyrinthe basé sur des signaux visuels et sont récompensées par de la nourriture lorsqu'elles atteignent l'objectif.
Ils ont examiné comment ces deux systèmes s’adaptent et s’intègrent tout en interagissant avec l’environnement, démontrant qu’ils peuvent rapidement adopter un comportement adaptatif. Il a été observé que l’agent IA collectait des données et améliorait son propre comportement grâce à l’apprentissage par renforcement.
Ce que notre cerveau préfère
Après une longue journée de travail, nous rentrons généralement chez nous en pilote automatique (comportement habituel). Cependant, si vous venez de déménager et que vous n’y prêtez pas attention, vous pourriez vous retrouver par habitude à retourner à votre ancien logement.
Lorsque vous vous surprenez à faire cela, vous changez de vitesse (comportement axé sur un objectif) et vous vous réorientez vers votre nouvelle maison. Traditionnellement, ces deux comportements sont considérés comme fonctionnant indépendamment, ce qui donne lieu à un comportement soit habituel et rapide mais inflexible, soit orienté vers un objectif et flexible mais lent.
« La transition automatique d'un comportement axé sur un objectif à un comportement habituel pendant l'apprentissage est une découverte très célèbre en psychologie. Notre modèle et nos simulations peuvent expliquer pourquoi cela se produit : le cerveau préférerait un comportement avec une plus grande certitude. À mesure que l'apprentissage progresse, le comportement habituel devient moins aléatoire, augmentant ainsi la certitude. Par conséquent, le cerveau préfère s'appuyer sur un comportement habituel après un entraînement important », a déclaré le Dr Dongqi Han, ancien doctorant. étudiant à l'unité de recherche en neurorobotique cognitive de l'OIST et premier auteur de l'article, a expliqué.
Pour atteindre un nouvel objectif pour lequel l’IA ne s’est pas entraînée, elle utilise un modèle interne de l’environnement pour planifier ses actions. Il n’est pas nécessaire de considérer toutes les actions possibles mais utilise une combinaison de ses comportements habituels, ce qui rend la planification plus efficace.
Cela remet en question les approches traditionnelles de l’IA qui exigent que tous les objectifs possibles soient explicitement inclus dans la formation pour qu’ils soient atteints. Dans ce modèle, chaque objectif souhaité peut être atteint sans formation explicite mais en combinant de manière flexible les connaissances acquises.
« Il est important de parvenir à une sorte d'équilibre ou de compromis entre un comportement flexible et habituel », a déclaré le professeur Jun Tani, chef de l'unité de recherche en neurorobotique cognitive. « Il pourrait y avoir de nombreuses façons possibles d'atteindre un objectif, mais considérer toutes les actions possibles est très coûteux, donc le comportement orienté vers un objectif est limité par le comportement habituel visant à restreindre les options. »
Construire une meilleure IA
Le Dr Han s’est intéressé aux neurosciences et à l’écart entre l’intelligence artificielle et humaine lorsqu’il a commencé à travailler sur les algorithmes d’IA. « J'ai commencé à réfléchir à la façon dont l'IA peut se comporter de manière plus efficace et plus adaptable, comme les humains. Je voulais comprendre les principes mathématiques sous-jacents et comment nous pouvons les utiliser pour améliorer l'IA. C'était la motivation de mes recherches de doctorat. »
Comprendre la différence entre les comportements habituels et ceux axés sur un objectif a des implications importantes, en particulier dans le domaine des neurosciences, car cela peut faire la lumière sur des troubles neurologiques tels que le TDAH, le TOC et la maladie de Parkinson.
« Nous explorons les principes informatiques par lesquels plusieurs systèmes du cerveau fonctionnent ensemble. Nous avons également constaté que les neuromodulateurs tels que la dopamine et la sérotonine jouent un rôle crucial dans ce processus », a expliqué le professeur Kenji Doya, chef de l'unité de calcul neuronal.
« Les systèmes d'IA développés en s'inspirant du cerveau et éprouvés capables de résoudre des problèmes pratiques peuvent constituer des outils précieux pour comprendre ce qui se passe dans le cerveau des humains et des animaux. »
Le Dr Han aimerait contribuer à la création d’une meilleure IA capable d’adapter son comportement pour atteindre des objectifs complexes.
« Nous sommes très intéressés par le développement d'une IA qui possède des capacités proches de celles de l'homme lors de l'exécution de tâches quotidiennes. Nous souhaitons donc combler cet écart entre l'homme et l'IA. Nos cerveaux disposent de deux mécanismes d'apprentissage et nous devons mieux comprendre comment ils travaillent ensemble pour atteindre notre objectif. « .