Modèles linguistiques : un guide pour les perplexes
Les modèles linguistiques ont, quelque peu subrepticement, dominé l’actualité l’année dernière. Souvent appelés « intelligence artificielle », ces systèmes sont à la base de chatbots comme ChatGPT et Google Bard.
Mais une équipe de chercheurs de l’Université de Washington a remarqué que, même au milieu d’une année de turbulences autour de l’IA, de nombreuses personnes ont du mal à trouver des informations précises et compréhensibles sur ce que sont les modèles de langage et comment ils fonctionnent. Les articles de presse se concentrent souvent sur les dernières avancées ou controverses d’entreprise, tandis que les documents de recherche sont trop techniques et trop précis pour le public.
Récemment, l’équipe a publié « Modèles linguistiques : un guide pour les perplexes », un article expliquant les modèles linguistiques en termes simples. Il est disponible sur le arXiv serveur de préimpression.
Pour obtenir des réponses à certaines questions courantes, UW News s’est entretenu avec l’auteur principal Sofia Serrano, doctorante UW à la Paul G. Allen School of Computer Science & Engineering ; le co-auteur Zander Brumbaugh, étudiant à la maîtrise à l’école Allen ; et l’auteur principal Noah A. Smith, professeur à l’école Allen.
En bref, que sont les modèles de langage et comment fonctionnent-ils ?
Serrano : Un modèle de langage est essentiellement un prédicteur du mot suivant. Il examine une grande partie du texte et remarque quels mots ont tendance à suivre, après quelles séquences d’autres mots. Généralement, lorsque nous parlons d’un modèle de langage, nous parlons désormais d’un grand modèle d’apprentissage automatique, qui contient de nombreux nombres différents appelés paramètres. Ces chiffres sont modifiés avec chaque nouveau bit de données textuelles sur lequel le modèle est formé.
Le résultat est une fonction mathématique géante qui, globalement, est assez efficace pour prédire quels mots suivront, compte tenu des mots qui ont été fournis dans une invite ou que le modèle a produits jusqu’à présent. Il s’avère que ces grands modèles reprennent également des éléments concernant la structure du langage et des éléments qui relèvent du bon sens ou de la connaissance du monde.
Dans votre article, vous évoquez cette idée de « boîte noire », qui fait référence à la difficulté de savoir ce qui se passe à l’intérieur de cette fonction géante. Qu’est-ce que les chercheurs ne comprennent toujours pas concrètement ?
Smith : Nous comprenons très bien le niveau mécanique : les équations qui sont calculées lorsque vous appuyez sur des entrées et faites une prédiction. Nous avons également une certaine compréhension au niveau du comportement, car les gens font toutes sortes d’études scientifiques sur les modèles de langage, comme s’il s’agissait de sujets de laboratoire.
À mon avis, le niveau que nous ne comprenons presque pas concerne les mécanismes situés au-dessus des calculs, qui se situent en quelque sorte au milieu. Y a-t-il des abstractions capturées par les fonctions ? Existe-t-il un moyen de passer en revue ces calculs intermédiaires et de dire : « Oh, il comprend les concepts, ou il comprend la syntaxe » ?
Ce n’est pas comme regarder sous le capot de votre voiture. Quelqu’un qui comprend les voitures peut vous expliquer ce que fait chaque pièce et pourquoi elle est là. Mais les outils dont nous disposons pour inspecter ce qui se passe dans les prédictions d’un modèle de langage ne sont pas géniaux. De nos jours, ils ont entre un milliard et peut-être même un billion de paramètres. Cela représente plus de chiffres que quiconque ne peut en visualiser. Même dans les modèles plus petits, les chiffres n’ont aucune signification individuelle. Ils travaillent ensemble pour prendre cette séquence de mots précédente et la transformer en une prédiction sur le mot suivant.
Pourquoi faites-vous la distinction entre l’IA et les modèles de langage ?
Serrano : « IA » est un terme générique qui peut faire référence à de nombreuses communautés de recherche différentes qui s’efforcent de faire « apprendre » les ordinateurs d’une manière ou d’une autre. Mais il peut également faire référence à des systèmes ou des modèles développés à l’aide de ces techniques « d’apprentissage ». Lorsque nous parlons de « modèle de langage », nous sommes plus précis sur un concept particulier qui relève de l’IA.
Smith : Le terme « IA » évoque de nombreuses idées préconçues. Je pense que c’est en partie pourquoi il est autant utilisé en marketing. Le terme « modèle de langage » a une définition technique précise. Nous pouvons être clairs sur ce qu’est exactement un modèle de langage et ce qu’il n’est pas, et il ne fera pas apparaître toutes ces idées préconçues et tous ces sentiments.
Serrano : Même au sein des communautés de recherche sur le traitement du langage naturel, les gens parlent de modèles linguistiques « pensant » ou « raisonnant ». À certains égards, ce langage a du sens en tant que raccourci. Mais lorsque nous utilisons le terme « penser », nous savons surtout comment cela fonctionne pour les humains. Pourtant, lorsque nous appliquons cette terminologie aux modèles de langage, cela peut donner l’impression qu’un processus similaire se produit.
Encore une fois, un modèle de langage est un ensemble de nombres dans une fonction mathématique apprise. Il est juste de dire que ces nombres sont capables de récupérer ou de faire apparaître des informations que le modèle a vues auparavant, ou de trouver des liens entre le texte saisi. Mais on a souvent tendance à aller plus loin et à formuler des hypothèses sur tout type de raisonnement que les modèles pourraient posséder. Nous n’avons pas vraiment vu ce niveau de maîtrise dissocié des autres aspects de ce que nous considérons comme de l’intelligence. Il est donc très facile pour nous de confondre la maîtrise de la langue avec toutes les autres choses que nous incluons généralement dans le terme « intelligence ».
Pourriez-vous donner un exemple de la façon dont cette maîtrise se traduit par des choses qui seraient perçues comme intelligentes ?
Brumbaugh : Je pense qu’il peut être assez difficile de déterminer ce qu’est une démonstration d’intelligence. Par exemple, si quelqu’un demande à un mannequin : « Je me sens mal et je me sens déprimé, que dois-je faire ? Le modèle peut offrir des conseils apparemment raisonnés. Une personne ayant une expérience limitée des modèles de langage pourrait percevoir cela comme de l’intelligence, plutôt que comme une prédiction du mot suivant.
Smith : Si vous dites à un mannequin : « Je passe une mauvaise journée » et que sa réponse ressemble à celle d’un thérapeute, il a probablement lu un tas d’articles en ligne qui coachent les gens sur l’empathie, il peut donc être très fluide lorsqu’il prend le sein. dans le bon contexte. Mais s’il commence à se nourrir de votre tristesse et à vous dire que vous êtes horrible, il s’accroche probablement à une autre source de texte. Il peut reproduire les différentes qualités de l’intelligence et du comportement humains que nous observons en ligne. Ainsi, si un modèle se comporte d’une manière qui semble intelligente, vous devez d’abord vous demander : « Qu’a-t-il vu dans les données d’entraînement qui ressemblent à cette conversation ? »
Qu’est-ce qui rend difficile dans certains cas la compilation d’un bon ensemble de données pour former un modèle de langage ?
Brumbaugh : Les modèles actuels couvrent à peu près l’intégralité de l’Internet public. Il faut énormément de ressources pour pouvoir collecter ces données. Dans la modélisation linguistique, essentiellement, ce que vous mettez est ce que vous allez retirer. Les gens recherchent donc la meilleure façon de collecter des données, de les filtrer et de s’assurer que vous n’y mettez pas quelque chose de toxique ou de nocif ou simplement de qualité la plus basse. Tout cela présente des défis distincts.
Pourquoi est-il essentiel de disposer de données de test qui ne figurent pas dans l’ensemble de données d’entraînement d’origine ?
Smith : J’appelle cela la règle cardinale de l’apprentissage automatique. Lorsque vous évaluez un modèle, vous voulez vous assurer que vous mesurez ses performances sur quelque chose qu’il n’a jamais vu auparavant. Dans l’article, nous comparons cela à un étudiant qui obtient d’une manière ou d’une autre une copie du corrigé de l’examen final. Peu importe qu’ils l’aient regardé. Leur examen n’est tout simplement pas utile pour juger s’ils ont appris quelque chose.
C’est la même chose avec les modèles de langage. Si les exemples de tests figuraient dans les données d’entraînement, il aurait pu simplement mémoriser ce qu’il a vu. Un grand nombre de chercheurs considèrent que ces modèles effectuent beaucoup de mémorisation – peut-être pas une mémorisation parfaite, mais une mémorisation floue. Parfois, le mot « contamination » est utilisé. Si les données de formation ont été contaminées par le test, cela ne signifie pas que le modèle de langage est stupide ou intelligent ou quoi que ce soit. Cela signifie simplement que nous ne pouvons rien conclure.
Qu’est-il important que le public comprenne à propos des modèles linguistiques à l’heure actuelle ?
Brumbaugh : Nous devons continuer à séparer les modèles linguistiques des notions d’intelligence. Ces modèles sont imparfaits. Ils peuvent paraître très fluides, mais ils sont sujets aux hallucinations, c’est-à-dire lorsqu’ils génèrent des informations erronées ou fictives. Je connais des gens qui utilisent des modèles linguistiques pour quelque chose de relativement important, comme la recherche d’informations. Mais ils donnent une représentation floue de ce qu’ils ont appris. Ce ne sont pas des bases de données ou une recherche Google.
Smith : Si vous regardez les grandes réalisations technologiques – l’avion ou Internet – la plupart résultent d’un objectif clair. Nous voulions déplacer des personnes dans les airs ou envoyer des informations entre ordinateurs. Mais il y a seulement quelques années, les modèles linguistiques étaient en grande partie des artefacts de recherche. Quelques-uns étaient utilisés dans certains systèmes, tels que Google Translate. Mais je ne pense pas que les chercheurs aient clairement eu l’impression de résoudre un problème en créant un produit. Je pense que nous disions plutôt : « Voyons ce qui se passera si nous augmentons cela. » Puis, par hasard, cette maîtrise a donné ces autres résultats.
Mais la recherche n’a pas été menée avec un objectif en tête, et même aujourd’hui, personne ne sait vraiment quel est cet objectif. Et c’est plutôt excitant parce que certains d’entre nous aimeraient voir ces modèles rendus plus ouverts parce que nous pensons qu’il y a beaucoup de potentiel. Mais les grandes entreprises technologiques n’ont aucune raison de créer un outil qui fonctionne vraiment bien pour Sofia, moi ou vous. Il faut donc démocratiser les modèles.
Quelles sont les étapes fondamentales vers cette démocratisation ?
Smith : Certaines organisations créent des modèles de langage ouverts, dans lesquels les paramètres, le code et les données sont partagés. Je travaille à temps partiel pour l’une de ces organisations, l’Allen Institute for Artificial Intelligence, mais il y en a d’autres. Meta a publié des modèles, sans les données, mais c’est toujours mieux que rien. Une société appelée EleutherAI propose des modèles ouverts. Ces modèles restent souvent assez coûteux à exploiter. Je pense donc que nous avons besoin de davantage d’investissements dans la recherche qui les rend plus efficaces, qui nous permettent de prendre un gros modèle et de le rendre suffisamment bon marché pour fonctionner sur un ordinateur portable.