Malgré ses résultats impressionnants, l'IA générative n'a pas une compréhension cohérente du monde, suggèrent les chercheurs

Les grands modèles linguistiques peuvent faire des choses impressionnantes, comme écrire de la poésie ou générer des programmes informatiques viables, même si ces modèles sont formés pour prédire les mots qui suivent dans un morceau de texte.

De telles capacités surprenantes peuvent donner l’impression que les modèles apprennent implicitement certaines vérités générales sur le monde.

Mais ce n'est pas nécessairement le cas, selon une nouvelle étude. Les chercheurs ont découvert qu’un type populaire de modèle d’IA générative peut fournir des itinéraires routiers détaillés à New York avec une précision presque parfaite, sans avoir formé une carte interne précise de la ville.

Malgré l'étrange capacité du modèle à naviguer efficacement, lorsque les chercheurs ont fermé certaines rues et ajouté des détours, ses performances ont chuté.

En creusant plus profondément, les chercheurs ont découvert que les cartes de New York générées implicitement par le modèle comportaient de nombreuses rues inexistantes courbant entre la grille et reliant des intersections éloignées.

Cela pourrait avoir de sérieuses implications pour les modèles d’IA générative déployés dans le monde réel, puisqu’un modèle qui semble bien fonctionner dans un contexte donné pourrait s’effondrer si la tâche ou l’environnement changeait légèrement.

« Nous espérons que, parce que les LLM peuvent accomplir toutes ces choses étonnantes en matière de langage, nous pourrions peut-être également utiliser ces mêmes outils dans d'autres domaines de la science. Mais la question de savoir si les LLM apprennent des modèles mondiaux cohérents est très importante si nous voulons utiliser ces techniques pour faire de nouvelles découvertes », déclare l'auteur principal Ashesh Rambachan, professeur adjoint d'économie et chercheur principal au Laboratoire des systèmes d'information et de décision (LIDS) du MIT.

Rambachan est rejoint dans un article sur les travaux de l'auteur principal Keyon Vafa, postdoctorant à l'Université Harvard ; Justin Y. Chen, étudiant diplômé en génie électrique et informatique (EECS) au MIT ; Jon Kleinberg, professeur d'informatique et de sciences de l'information à l'Université Tisch à l'Université Cornell ; et Sendhil Mullainathan, professeur au MIT dans les départements d'EECS et d'économie, et membre du LIDS. La recherche sera présentée à la Conférence sur les systèmes de traitement de l'information neuronale.

L'ouvrage est publié sur le arXiv serveur de préimpression.

Nouvelles mesures

Les chercheurs se sont concentrés sur un type de modèle d’IA génératif connu sous le nom de transformateur, qui constitue l’épine dorsale des LLM comme GPT-4. Les transformateurs sont formés sur une quantité massive de données linguistiques pour prédire le prochain jeton d'une séquence, comme le mot suivant dans une phrase.

Mais si les scientifiques veulent déterminer si un LLM a formé un modèle précis du monde, mesurer l'exactitude de ses prédictions ne va pas assez loin, disent les chercheurs.

Par exemple, ils ont découvert qu’un transformateur peut prédire des mouvements valides dans une partie de Connect 4 presque à chaque fois sans comprendre aucune des règles.

L’équipe a donc développé deux nouvelles mesures permettant de tester le modèle mondial d’un transformateur. Les chercheurs ont concentré leurs évaluations sur une classe de problèmes appelés automatisations finies déterministes, ou DFA.

Un DFA est un problème composé d'une séquence d'états, comme les intersections que l'on doit traverser pour atteindre une destination, et d'une manière concrète de décrire les règles que l'on doit suivre tout au long du chemin.

Ils ont choisi deux problèmes à formuler comme DFA : naviguer dans les rues de New York et jouer au jeu de société Othello.

« Nous avions besoin de bancs d'essai où nous sachions quel est le modèle mondial. Maintenant, nous pouvons réfléchir rigoureusement à ce que signifie récupérer ce modèle mondial », explique Vafa.

La première métrique qu'ils ont développée, appelée distinction de séquence, indique qu'un modèle a formé un modèle mondial cohérent s'il voit deux états différents, comme deux cartes Othello différentes, et reconnaît en quoi ils sont différents. Les séquences, c'est-à-dire les listes ordonnées de points de données, sont ce que les transformateurs utilisent pour générer des sorties.

La deuxième métrique, appelée compression de séquence, indique qu'un transformateur doté d'un modèle mondial cohérent doit savoir que deux états identiques, comme deux cartes Othello identiques, ont la même séquence d'étapes suivantes possibles.

Ils ont utilisé ces métriques pour tester deux classes courantes de transformateurs, l’une formée sur des données générées à partir de séquences produites de manière aléatoire et l’autre sur des données générées par les stratégies suivantes.

Des modèles mondiaux incohérents

Étonnamment, les chercheurs ont découvert que les transformateurs qui faisaient des choix aléatoires formaient des modèles du monde plus précis, peut-être parce qu’ils voyaient une plus grande variété d’étapes potentielles au cours de la formation.

« Dans Othello, si vous voyez deux ordinateurs aléatoires jouer plutôt que des joueurs de championnat, en théorie vous verriez l'ensemble des mouvements possibles, même les mauvais mouvements que les joueurs de championnat ne feraient pas », explique Vafa.

Même si les transformateurs ont généré des directions précises et des mouvements d'Othello valides dans presque tous les cas, les deux mesures ont révélé qu'un seul a généré un modèle mondial cohérent pour les mouvements d'Othello, et aucun n'a bien réussi à former des modèles mondiaux cohérents dans l'exemple d'orientation.

Les chercheurs ont démontré les implications de cela en ajoutant des détours à la carte de la ville de New York, ce qui a provoqué l'échec de tous les modèles de navigation.

« J'ai été surpris par la rapidité avec laquelle les performances se détérioraient dès que nous ajoutions un détour. Si nous fermons seulement 1 pour cent des rues possibles, la précision chute immédiatement de près de 100 % à seulement 67 % « , explique Vafa.

Lorsqu’ils ont récupéré les plans de la ville générés par les modèles, ils ressemblaient à une ville de New York imaginaire avec des centaines de rues sillonnées superposées au-dessus de la grille. Les cartes contenaient souvent des survols aléatoires au-dessus d'autres rues ou de plusieurs rues avec des orientations impossibles.

Ces résultats montrent que les transformateurs peuvent étonnamment bien fonctionner dans certaines tâches sans en comprendre les règles. Si les scientifiques souhaitent créer des LLM capables de capturer des modèles mondiaux précis, ils doivent adopter une approche différente, affirment les chercheurs.

« Souvent, nous voyons ces modèles faire des choses impressionnantes et pensons qu'ils doivent avoir compris quelque chose sur le monde. J'espère que nous pourrons convaincre les gens que c'est une question à laquelle il faut réfléchir très attentivement et que nous ne devons pas nous fier à nos propres intuitions. pour y répondre », déclare Rambachan.

À l’avenir, les chercheurs souhaitent s’attaquer à un ensemble de problèmes plus diversifiés, par exemple ceux pour lesquels certaines règles ne sont que partiellement connues. Ils souhaitent également appliquer leurs mesures d’évaluation à des problèmes scientifiques réels.