Une mémoire Hebbian qui permet d'obtenir des résultats semblables à ceux d'un humain sur des tâches de traitement séquentielles

Les transformateurs sont des modèles d’apprentissage automatique conçus pour découvrir et suivre des modèles dans des données séquentielles, telles que des séquences de texte. Ces dernières années, ces modèles sont devenus de plus en plus sophistiqués, constituant l’épine dorsale des plateformes conversationnelles populaires, telles que ChatGPT,

Même si les transformateurs existants ont obtenu de bons résultats dans diverses tâches, leurs performances diminuent souvent considérablement lors du traitement de séquences plus longues. Cela est dû à leur capacité de stockage limitée, ou en d’autres termes à la faible quantité de données qu’ils peuvent stocker et analyser à la fois.

Des chercheurs de l’Université Sungkyunkwan en Corée du Sud ont récemment développé un nouveau système de mémoire qui pourrait contribuer à améliorer les performances des transformateurs sur des tâches plus complexes caractérisées par des séquences de données plus longues. Ce système, présenté dans un article publié sur le arXiv serveur de prépublication, s’inspire d’une théorie importante de la mémoire humaine, connue sous le nom de théorie hebbienne.

« Les Transformers ont du mal avec les longues séquences d’entrée en raison de leur capacité limitée », ont écrit Sangjun Park et JinYeong Bak dans leur article. « Bien qu’une solution consiste à augmenter la longueur d’entrée, l’allonger sans fin est irréaliste. De plus, les humains mémorisent et utilisent de manière sélective uniquement les informations pertinentes provenant des entrées, contrairement aux transformateurs qui traitent toutes les données brutes du début à la fin. »

L’objectif principal des travaux récents de Park, Bak et de leurs collègues était de concevoir un système capable de faire progresser les capacités des modèles de transformateurs, en utilisant une théorie neuropsychologique bien établie. Cette théorie, connue sous le nom de théorie hebbienne, suggère essentiellement que les neurones et les cellules qui sont activés ensemble de manière répétée ont tendance à s’associer, ces associations conduisant finalement à l’apprentissage.

« Nous introduisons Memoria, un réseau de mémoire général qui applique la théorie hebbienne, qui est une théorie majeure expliquant la formulation de la mémoire humaine pour améliorer les dépendances à long terme dans les réseaux neuronaux », expliquent Park et Bak dans leur article. « Memoria stocke et récupère des informations appelées engrammes à plusieurs niveaux de mémoire de travail, de mémoire à court terme et de mémoire à long terme, en utilisant des poids de connexion qui changent selon la règle de Hebb. »

Jusqu’à présent, les chercheurs ont évalué leur système de mémoire hebbien dans une série d’expériences, obtenant des résultats très prometteurs. Il a été constaté que Memoria améliore considérablement les performances des transformateurs dans diverses tâches impliquant le traitement de longues séquences de données.

« Grâce à des expériences avec des modèles populaires basés sur des transformateurs tels que BERT et GPT, nous montrons que Memoria améliore considérablement la capacité à prendre en compte les dépendances à long terme dans diverses tâches », ont écrit les chercheurs dans leur article. « Les résultats montrent que Memoria a surpassé les méthodologies existantes en matière de tri, de modélisation linguistique et de classification de textes longs. »

L’architecture de mémoire prometteuse développée par ces chercheurs pourrait bientôt être testée sur un éventail plus large de tâches complexes, afin d’explorer davantage son potentiel. En outre, d’autres groupes de recherche dans le monde pourraient bientôt commencer à l’utiliser pour améliorer les performances de leurs modèles basés sur des transformateurs.

Le code écrit par Park et Bak est open source et est facilement accessible sur GitHub. Dans le cadre de leur étude, les chercheurs ont déployé Memoria à l’aide d’un package Python indépendant, ce qui facilite encore davantage son utilisation par les développeurs du monde entier.