Les unités clés des modèles d’IA reflètent le système de langue du cerveau humain
Les chercheurs de l’EPFL ont découvert des «unités» clés dans les grands modèles d’IA qui semblent importants pour le langage, reflétant le système linguistique du cerveau. Lorsque ces unités spécifiques ont été désactivées, les modèles ont empiré dans les tâches linguistiques.
Les grands modèles de langage (LLM) ne sont pas seulement bons pour comprendre et utiliser le langage, ils peuvent également raisonner ou penser logiquement, résoudre des problèmes et certains peuvent même prédire les pensées, les croyances ou les émotions des personnes avec lesquelles ils interagissent.
Malgré ces exploits impressionnants, nous ne comprenons toujours pas pleinement comment les LLM fonctionnent « sous le capot », en particulier en ce qui concerne la façon dont différentes unités ou modules effectuent différentes tâches. Ainsi, les chercheurs du Laboratoire Neuroai, qui font partie de l’École des sciences informatiques et de la communication (IC) et de l’École des sciences de la vie (SV) et du Laboratoire de traitement du langage naturel (IC), voulaient savoir si les LLM ont des unités ou des modules spécialisés qui font des emplois spécifiques. Ceci est inspiré par des réseaux découverts dans le cerveau humain, tels que le réseau linguistique, le réseau de demande multiple et la théorie du réseau mental.
Dans un article présenté ce mois-ci lors de la conférence annuelle de la Conférence des Nations des Amériques de 2025 de la Linguistique (NAACL 2025), à Albuquerque aux États-Unis, les chercheurs expliquent comment ils ont étudié 18 LLM populaires et ont constaté que certaines unités semblent, en effet, constituer un réseau fondamental axé sur le langage. L’étude est disponible sur le arxiv serveur de préimprimée.
« S’inspirant des approches des neurosciences, qui ont cartographié l’organisation fonctionnelle de notre cerveau, nous avons comparé à quel point une unité était activée lorsque la lecture de phrases réelles par rapport à la lecture des listes de mots aléatoires. Les unités qui réagissaient plus activement aux phrases réelles ont ensuite été identifiées comme` `Unités sélectives de la langue, » tout comme le réseau de neuroai.
Moins de 100 neurones extrêmement pertinents
Pour tester le rôle causal des unités sélectives de la langue qu’ils avaient identifiées, les chercheurs ont supprimé ces unités et, séparément, ont supprimé différents ensembles d’unités aléatoires. Ils ont ensuite comparé les différences dans ce qui s’est passé ensuite. Lorsque les unités spécifiques à la langue ont été supprimées, mais pas celles aléatoires – les modèles n’ont plus pu générer du texte cohérent et n’ont pas pu bien fonctionner sur les références linguistiques.
« Les résultats montrent que ces unités comptent vraiment pour le modèle. La principale surprise pour nous était qu’il y a probablement moins de 100 neurones – environ 1% des unités – qui semblent être extrêmement pertinentes pour tout ce qui est à voir avec la capacité d’un modèle à produire et à comprendre la langue et à perturber ceux, soudainement le modèle échoue complètement », a expliqué BADR Alkhamisssi, un assistant doctoral dans le neuroai et le NLP Labs et le Ponder du Pila.
« Il existe une recherche sur l’apprentissage automatique et l’interprétabilité qui a identifié certains réseaux ou unités dans un modèle pertinent pour le langage, mais cela nécessitait beaucoup de formation, et c’était beaucoup plus compliqué que d’utiliser le même localisateur utilisé dans les neurosciences humaines. Nous ne nous attendions pas vraiment à ce que cela fonctionne si bien », a-t-il poursuivi.
En plus des unités sélectives de la langue, cela a soulevé une question naturelle: les mêmes localiseurs conçus pour identifier d’autres réseaux cérébraux, tels que la théorie de l’esprit ou les réseaux de demande multiple, sont également appliqués aux LLM?
En utilisant ces localiseurs, les chercheurs de l’EPFL ont tenté d’évaluer si d’autres unités dans les modèles se spécialisent dans le raisonnement ou la pensée sociale et ont constaté que certains modèles possédaient ces unités de tâche spécifiques, tandis que d’autres ne l’ont pas fait.
Autres questions
« Dans certains modèles, nous avons trouvé des unités de raisonnement et de pensée spécialisées et dans certains modèles que nous n’avons pas fait. Une question intéressante en ce moment est d’où cela vient? Pourquoi certains modèles ont-ils cette préférence et cela se connecte-t-il à leurs performances sur des bancs connexes? Si vous avez des unités qui sont quelque peu isolées, cela permet de faire mieux le modèle pour faire des recherches pour les modèles ou les données sur lesquelles ils sont formés et un point de vue.
D’autres recherches futures se concentreront sur la tentative de découvrir ce qui se passe dans les modèles multimodèles – des modèles qui ne sont pas seulement formés sur le texte, mais qui peuvent également traiter divers autres modalités d’informations, y compris les images, la vidéo et le son.
« Je suis définitivement très intéressé par cela, car en tant qu’humains, nous opérons sur la parole et la contribution visuelle. La question est que si nous utilisons un modèle multimodal et lui donnons, par exemple, le langage comme une entrée visuelle, similaire aux personnes lisant un morceau de texte, aura-t-il les mêmes déficits linguistiques qu’il l’a fait lorsque nous supprimons le réseau linguistique dans le lien LLMS Versus? demanda Alkhamisssi.
Plus largement, les chercheurs pensent que ces études aident à résoudre le puzzle du fonctionnement interne des modèles de grands langues, se rapportant aux neurosciences et en établissant des liens sur le fonctionnement du cerveau humain.
« Si nous pensons aux dommages qui se présentent au réseau linguistique dans le cerveau des personnes qui ont eu un accident vasculaire cérébral, ils ont souvent de graves déficiences du langage tandis que tout le reste est intact. C’est très similaire ici avec le composant linguistique LLM qui produit simplement du charabia et, même si nous ne l’avons pas testé, cela pourrait probablement bien fonctionner sur tout le reste.
« Nous espérons que ces modèles nous aideront à mieux comprendre nous-mêmes et nos cerveaux, ouvrant la voie à un diagnostic et un traitement plus avancés des maladies », a conclu Schrimpf.