Les grands modèles de langage utilisent un mécanisme étonnamment simple pour récupérer certaines connaissances stockées

Les grands modèles de langage utilisent un mécanisme étonnamment simple pour récupérer certaines connaissances stockées

Les grands modèles de langage, tels que ceux qui alimentent les chatbots d’intelligence artificielle populaires comme ChatGPT, sont incroyablement complexes. Même si ces modèles sont utilisés comme outils dans de nombreux domaines, tels que le support client, la génération de code et la traduction linguistique, les scientifiques ne comprennent toujours pas pleinement leur fonctionnement.

Dans le but de mieux comprendre ce qui se passe sous le capot, des chercheurs du MIT et d’ailleurs ont étudié les mécanismes à l’œuvre lorsque ces énormes modèles d’apprentissage automatique récupèrent les connaissances stockées.

Ils ont trouvé un résultat surprenant : les grands modèles de langage (LLM) utilisent souvent une fonction linéaire très simple pour récupérer et décoder les faits stockés. De plus, le modèle utilise la même fonction de décodage pour des types de faits similaires. Les fonctions linéaires, c'est-à-dire les équations avec seulement deux variables et sans exposant, capturent la relation directe et directe entre deux variables.

Les chercheurs ont montré qu'en identifiant des fonctions linéaires pour différents faits, ils peuvent sonder le modèle pour voir ce qu'il sait sur de nouveaux sujets et où dans le modèle ces connaissances sont stockées.

En utilisant une technique qu’ils ont développée pour estimer ces fonctions simples, les chercheurs ont découvert que même lorsqu’un modèle répond de manière incorrecte à une invite, il stocke souvent les informations correctes. À l'avenir, les scientifiques pourraient utiliser une telle approche pour trouver et corriger les faussetés à l'intérieur du modèle, ce qui pourrait réduire la tendance d'un modèle à donner parfois des réponses incorrectes ou absurdes.

« Même si ces modèles sont des fonctions non linéaires très complexes, entraînées sur de nombreuses données et très difficiles à comprendre, ils contiennent parfois des mécanismes très simples qui fonctionnent. Ceci n'est qu'un exemple de cela », explique Evan Hernandez, spécialiste en génie électrique. et étudiant diplômé en informatique (EECS) et co-auteur principal d'un article détaillant ces résultats publié sur le arXiv serveur de préimpression.

Hernandez a écrit l'article avec le co-auteur principal Arnab Sharma, étudiant diplômé en informatique à la Northeastern University ; son conseiller, Jacob Andreas, professeur agrégé à l'EECS et membre du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) ; l'auteur principal David Bau, professeur adjoint d'informatique à Northeastern ; et d'autres au MIT, à l'Université Harvard et à l'Institut israélien de technologie. La recherche sera présentée lors de la Conférence internationale sur les représentations d'apprentissage (ICLR 2024) qui se tiendra du 7 au 11 mai à Vienne.

Trouver des faits

La plupart des grands modèles de langage, également appelés modèles de transformateur, sont des réseaux de neurones. Largement inspirés du cerveau humain, les réseaux de neurones contiennent des milliards de nœuds interconnectés, ou neurones, regroupés en plusieurs couches et qui codent et traitent les données.

Une grande partie des connaissances stockées dans un transformateur peut être représentée sous forme de relations reliant les sujets et les objets. Par exemple, « Miles Davis joue de la trompette » est une relation qui relie le sujet, Miles Davis, à l'objet, la trompette.

À mesure qu’un transformateur acquiert davantage de connaissances, il stocke des informations supplémentaires sur un sujet donné sur plusieurs couches. Si un utilisateur pose une question sur ce sujet, le modèle doit décoder le fait le plus pertinent pour répondre à la requête.

Si quelqu'un déclenche un transformateur en disant « Miles Davis joue le… » le modèle devrait répondre par « trompette » et non par « Illinois » (l'État où est né Miles Davis).

« Quelque part dans le calcul du réseau, il doit y avoir un mécanisme qui recherche le fait que Miles Davis joue de la trompette, puis extrait cette information et aide à générer le mot suivant. Nous voulions comprendre ce qu'était ce mécanisme. » dit Hernández.

Les chercheurs ont mis en place une série d’expériences pour sonder les LLM et ont découvert que, même s’ils sont extrêmement complexes, les modèles décodent les informations relationnelles à l’aide d’une simple fonction linéaire. Chaque fonction est spécifique au type de fait récupéré.

Les grands modèles de langage utilisent un mécanisme étonnamment simple pour récupérer certaines connaissances stockées

Par exemple, le transformateur utiliserait une fonction de décodage chaque fois qu'il souhaite afficher l'instrument joué par une personne et une fonction différente chaque fois qu'il souhaite afficher l'état dans lequel une personne est née.

Les chercheurs ont développé une méthode pour estimer ces fonctions simples, puis ont calculé des fonctions pour 47 relations différentes, telles que « capitale d'un pays » et « chanteur principal d'un groupe ».

Bien qu’il puisse exister un nombre infini de relations possibles, les chercheurs ont choisi d’étudier ce sous-ensemble spécifique car ils sont représentatifs du type de faits pouvant être écrits de cette manière.

Ils ont testé chaque fonction en changeant de sujet pour voir si elle pouvait récupérer les informations correctes sur l'objet. Par exemple, la fonction « capitale d'un pays » devrait récupérer Oslo si le sujet est la Norvège et Londres si le sujet est l'Angleterre.

Les fonctions ont récupéré les informations correctes dans plus de 60 % du temps, ce qui montre que certaines informations d'un transformateur sont codées et récupérées de cette manière.

« Mais tout n'est pas codé linéairement. Pour certains faits, même si le modèle les connaît et prédit un texte cohérent avec ces faits, nous ne pouvons pas leur trouver de fonctions linéaires. Cela suggère que le modèle fait quelque chose de plus complexe pour stocker ces informations », dit-il.

Visualiser les connaissances d'un modèle

Ils ont également utilisé les fonctions pour déterminer ce qu'un modèle croit être vrai sur différents sujets.

Dans une expérience, ils ont commencé avec l'invite « Bill Bradley était un » et ont utilisé les fonctions de décodage pour « fait du sport » et « a fréquenté l'université » pour voir si le modèle sait que le sénateur Bradley était un joueur de basket-ball qui a fréquenté Princeton.

« Nous pouvons montrer que, même si le modèle choisit de se concentrer sur différentes informations lorsqu'il produit du texte, il code toutes ces informations », explique Hernandez.

Ils ont utilisé cette technique de sondage pour produire ce qu'ils appellent une « lentille d'attribut », une grille qui visualise où des informations spécifiques sur une relation particulière sont stockées dans les nombreuses couches du transformateur.

Les lentilles d'attribut peuvent être générées automatiquement, fournissant ainsi une méthode rationalisée pour aider les chercheurs à mieux comprendre un modèle. Cet outil de visualisation pourrait permettre aux scientifiques et aux ingénieurs de corriger les connaissances stockées et empêcher un chatbot IA de donner de fausses informations.

À l’avenir, Hernández et ses collaborateurs souhaitent mieux comprendre ce qui se passe dans les cas où les faits ne sont pas stockés de manière linéaire. Ils aimeraient également mener des expériences avec des modèles plus grands et étudier la précision des fonctions de décodage linéaire.

« Il s'agit d'un travail passionnant qui révèle une pièce manquante dans notre compréhension de la façon dont les grands modèles de langage rappellent des connaissances factuelles lors de l'inférence. Des travaux antérieurs ont montré que les LLM construisent des représentations riches en informations de sujets donnés, à partir desquelles des attributs spécifiques sont extraits lors de l'inférence.

« Ce travail montre que le calcul non linéaire complexe des LLM pour l'extraction d'attributs peut être bien approximé avec une simple fonction linéaire », explique Mor Geva Pipek, professeur adjoint à l'École d'informatique de l'Université de Tel Aviv, qui n'a pas participé à ce travail.

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT.