Un nouveau paradigme de réseau neuronal

Un nouveau paradigme de réseau neuronal

Écoutez les premières notes d’une vieille chanson bien-aimée. Pouvez-vous nommer cette mélodie? Si vous le pouvez, félicitations – c’est un triomphe de votre mémoire associative, dans laquelle une information (les premières notes) déclenche la mémoire de tout le motif (la chanson), sans que vous ayez réellement à entendre le reste de la chanson. Nous utilisons ce mécanisme neuronal pratique pour apprendre, nous souvenir, résoudre des problèmes et gérer généralement notre réalité.

« C’est un effet de réseau », a déclaré le professeur de génie mécanique de l’UC Santa Barbara, Francesco Bullo, expliquant que les souvenirs associatifs ne sont pas stockés dans des cellules cérébrales uniques. « Le stockage de la mémoire et la récupération de la mémoire sont des processus dynamiques qui se produisent sur des réseaux de neurones entiers. »

En 1982, le physicien John Hopfield a traduit ce concept de neuroscience théorique dans le domaine de l’intelligence artificielle, avec la formulation du réseau Hopfield. Ce faisant, non seulement il a fourni un cadre mathématique pour comprendre le stockage et la récupération de la mémoire dans le cerveau humain, mais il a également développé l’un des premiers réseaux de neurones artificiels récurrents – le réseau Hopfield – connu pour sa capacité à récupérer des modèles complets à partir d’apports bruyants ou incomplets. Hopfield a remporté le prix Nobel pour son travail en 2024.

Cependant, selon Bullo et collaborateurs Simone Betteti, Giacomo Baggio et Sandro Zampieri à l’Université de Padoue en Italie, le modèle traditionnel du réseau de Hopfield est puissant, mais il ne raconte pas toute l’histoire de la façon dont les nouvelles informations guident la récupération de la mémoire.

« Notamment », disent-ils dans un article publié dans la revue Avancées scientifiques«Le rôle des entrées externes a été largement inexplorée, de leurs effets sur la dynamique neuronale à la façon dont ils facilitent la récupération efficace de la mémoire».

Les chercheurs suggèrent un modèle de récupération de la mémoire qui, selon eux, est plus descriptif de la façon dont nous vivons la mémoire.

« La version moderne des systèmes d’apprentissage automatique, ces grands modèles de langue – ils ne modélisent pas vraiment les souvenirs », a expliqué Bullo. « Vous avez mis une invite et vous obtenez une production. Mais ce n’est pas la même manière que nous comprenons et gérons les souvenirs dans le monde animal. »

Bien que les LLM peuvent retourner des réponses qui peuvent sembler de manière convaincante intelligente, en s’appuyant sur les modèles de la langue qu’ils sont nourris, ils n’ont toujours pas le raisonnement et l’expérience sous-jacents du monde réel physique que les animaux ont.

« La façon dont nous vivons le monde est quelque chose qui est plus continu et moins débutant », a déclaré Betteti, auteur principal du journal.

La plupart des traitements sur le modèle Hopfield avaient tendance à traiter le cerveau comme s’il s’agissait d’un ordinateur, a-t-il ajouté, avec une perspective très mécaniste. « Au lieu de cela, comme nous travaillons sur un modèle de mémoire, nous voulons commencer par une perspective humaine. »

La principale question qui inspire les théoriciens était: Comme nous vivons le monde qui nous entoure, comment les signaux que nous recevons nous permettent de récupérer des souvenirs?

Comme Hopfield envisageait, il aide à conceptualiser la récupération de la mémoire en termes de paysage énergétique, dans lequel les vallées sont des minima énergétiques qui représentent des souvenirs. La récupération de la mémoire, c’est comme explorer ce paysage; La reconnaissance est lorsque vous tombez dans l’une des vallées. Votre position de départ dans le paysage est votre état initial.

« Imaginez que vous voyez la queue d’un chat », a déclaré Bullo. « Pas tout le chat, mais juste la queue. Un système de mémoire associatif devrait pouvoir récupérer la mémoire de l’ensemble du chat. » Selon le modèle traditionnel de Hopfield, la queue du chat (stimulus) est suffisante pour vous mettre le plus proche de la vallée marquée «chat», a-t-il expliqué, traitant le stimulus comme une condition initiale. Mais comment êtes-vous arrivé à cet endroit en premier lieu?

« Le modèle Hopfield classique n’explique pas soigneusement comment voir la queue du chat vous met au bon endroit pour tomber en bas de la colline et atteindre le minimum de l’énergie », a déclaré Bullo. « Comment vous déplacez-vous dans l’espace de l’activité neuronale où vous stockez ces souvenirs? C’est un peu clair. »

Le modèle de plasticité-plasticité (IDP) axé sur l’entrée des chercheurs vise à aborder ce manque de clarté avec un mécanisme qui intègre progressivement les informations passées et nouvelles, guidant le processus de recherche de mémoire vers la bonne mémoire. Au lieu d’appliquer la récupération de mémoire algorithmique en deux étapes sur le paysage énergétique plutôt statique du modèle de réseau Hopfield d’origine, les chercheurs décrivent un mécanisme dynamique et axé sur l’entrée.

« Nous défendons l’idée que, comme le stimulus du monde extérieur est reçu (par exemple, l’image de la queue du chat), elle change le paysage énergétique en même temps », a déclaré Bullo. « Le stimulus simplifie le paysage énergétique de sorte que quelle que soit votre position initiale, vous descendez dans le bon souvenir du chat. »

De plus, les chercheurs disent que le modèle IDP est robuste au bruit – les situations où l’entrée est vague, ambiguë ou partiellement obscurcie – et en fait, utilise le bruit comme moyen de filtrer les souvenirs moins stables (les vallées moins profondes de ce paysage énergétique) en faveur de celles plus stables.

« Nous commençons par le fait que lorsque vous regardez une scène, votre regard se déplace entre les différentes composantes de la scène », a déclaré Betteti. « Donc, à chaque instant dans le temps, vous choisissez ce sur quoi vous voulez vous concentrer, mais vous avez beaucoup de bruit autour. »

Une fois que vous vous verrouillez dans l’entrée sur laquelle vous concentrer, le réseau s’ajuste pour la prioriser, a-t-il expliqué.

Choisir sur quoi se concentrer sur, alias l’attention, est également le principal mécanisme derrière une autre architecture de réseau neuronal, le transformateur, qui est devenu le cœur de modèles de grande langue comme Chatgpt. Bien que le modèle IDP que les chercheurs proposent « commence à partir d’un point initial très différent avec un objectif différent », a déclaré Bullo, il y a beaucoup de potentiel pour que le modèle soit utile pour concevoir de futurs systèmes d’apprentissage automatique.

« Nous voyons un lien entre les deux, et l’article le décrit », a déclaré Bullo. « Ce n’est pas l’objectif principal de l’article, mais il y a ce merveilleux espoir que ces systèmes de mémoire associative et les grands modèles de langage peuvent être réconciliés. »