GPT-3 peut raisonner aussi bien qu'un étudiant, rapportent des psychologues

Crédit : domaine public Unsplash/CC0

Les gens résolvent facilement de nouveaux problèmes sans aucune formation ou pratique particulière en les comparant à des problèmes familiers et en étendant la solution au nouveau problème. Ce processus, connu sous le nom de raisonnement analogique, a longtemps été considéré comme une capacité humaine unique.

Mais maintenant, les gens pourraient devoir faire de la place pour un nouveau venu dans le quartier.

Des recherches menées par des psychologues de l’UCLA montrent que, étonnamment, le modèle de langage d’intelligence artificielle GPT-3 fonctionne à peu près aussi bien que les étudiants de premier cycle lorsqu’on leur demande de résoudre le type de problèmes de raisonnement qui apparaissent généralement sur les tests d’intelligence et les tests standardisés tels que le SAT. L’étude est publiée dans Nature Comportement humain.

Mais les auteurs de l’article écrivent que l’étude soulève la question suivante : le GPT-3 imite-t-il le raisonnement humain en tant que sous-produit de son énorme ensemble de données d’apprentissage linguistique ou utilise-t-il un type de processus cognitif fondamentalement nouveau ?

Sans accès au fonctionnement interne de GPT-3, qui est gardé par OpenAI, la société qui l’a créé, les scientifiques de l’UCLA ne peuvent pas dire avec certitude comment fonctionnent ses capacités de raisonnement. Ils écrivent également que bien que GPT-3 fonctionne bien mieux que prévu dans certaines tâches de raisonnement, l’outil d’IA populaire échoue toujours de manière spectaculaire dans d’autres.

« Peu importe à quel point nos résultats sont impressionnants, il est important de souligner que ce système a des limites majeures », a déclaré Taylor Webb, chercheur postdoctoral en psychologie à l’UCLA et premier auteur de l’étude. « Il peut faire un raisonnement analogique, mais il ne peut pas faire des choses très faciles pour les gens, comme utiliser des outils pour résoudre une tâche physique. Lorsque nous lui avons donné ce genre de problèmes, dont certains peuvent être résolus rapidement par les enfants, les choses cela suggérait qu’ils étaient absurdes. »

Webb et ses collègues ont testé la capacité de GPT-3 à résoudre un ensemble de problèmes inspirés d’un test connu sous le nom de Raven’s Progressive Matrices, qui demande au sujet de prédire l’image suivante dans un agencement compliqué de formes. Pour permettre à GPT-3 de « voir » les formes, Webb a converti les images dans un format texte que GPT-3 pouvait traiter ; cette approche garantissait également que l’IA n’aurait jamais rencontré les questions auparavant.

Les chercheurs ont demandé à 40 étudiants de premier cycle de l’UCLA de résoudre les mêmes problèmes.

« Étonnamment, non seulement le GPT-3 a fait à peu près aussi bien que les humains, mais il a également commis des erreurs similaires », a déclaré Hongjing Lu, professeur de psychologie à l’UCLA, auteur principal de l’étude.

Le GPT-3 a résolu correctement 80 % des problèmes, bien au-dessus du score moyen des sujets humains juste en dessous de 60 %, mais bien dans la fourchette des scores humains les plus élevés.

Les chercheurs ont également incité GPT-3 à résoudre un ensemble de questions d’analogie SAT qui, selon eux, n’ont jamais été publiées sur Internet, ce qui signifie qu’il est peu probable que les questions aient fait partie des données d’entraînement de GPT-3. Les questions demandent aux utilisateurs de sélectionner des paires de mots qui partagent le même type de relations. (Par exemple, dans le problème « ‘aimer’ c’est ‘haïr’ comme ‘riche’ est à quel mot ? », la solution serait « pauvre ».)

Ils ont comparé les scores de GPT-3 aux résultats publiés des scores SAT des candidats à l’université et ont constaté que l’IA fonctionnait mieux que le score moyen des humains.

Les chercheurs ont ensuite demandé à GPT-3 et à des étudiants volontaires de résoudre des analogies basées sur des histoires courtes, en les incitant à lire un passage, puis à identifier une histoire différente qui véhiculait le même sens. La technologie a moins bien réussi que les étudiants sur ces problèmes, bien que GPT-4, la dernière itération de la technologie OpenAI, ait mieux performé que GPT-3.

Les chercheurs de l’UCLA ont développé leur propre modèle informatique, inspiré de la cognition humaine, et ont comparé ses capacités à celles de l’IA commerciale.

« L’IA s’améliorait, mais notre modèle d’IA psychologique était toujours le meilleur pour résoudre les problèmes d’analogie jusqu’en décembre dernier, lorsque Taylor a obtenu la dernière mise à jour de GPT-3, et c’était aussi bon ou meilleur », a déclaré Keith Holyoak, professeur de psychologie à l’UCLA, un co-auteur de l’étude.

Les chercheurs ont déclaré que GPT-3 n’a pas été en mesure jusqu’à présent de résoudre les problèmes qui nécessitent de comprendre l’espace physique. Par exemple, s’il était fourni avec des descriptions d’un ensemble d’outils – disons, un tube en carton, des ciseaux et du ruban adhésif – qu’il pourrait utiliser pour transférer des boules de gomme d’un bol à un autre, GPT-3 a proposé des solutions bizarres.

« Les modèles d’apprentissage des langues essaient simplement de faire de la prédiction de mots, nous sommes donc surpris qu’ils puissent faire du raisonnement », a déclaré Lu. « Au cours des deux dernières années, la technologie a fait un grand bond par rapport à ses incarnations précédentes. »

Les scientifiques de l’UCLA espèrent explorer si les modèles d’apprentissage des langues commencent réellement à « penser » comme les humains ou font quelque chose de complètement différent qui imite simplement la pensée humaine.

« GPT-3 pourrait être un peu penser comme un humain », a déclaré Holyoak. « Mais d’un autre côté, les gens n’ont pas appris en ingérant l’intégralité d’Internet, donc la méthode de formation est complètement différente. Nous aimerions savoir si c’est vraiment comme les gens le font, ou si c’est quelque chose de nouveau, un vrai l’intelligence artificielle, ce qui serait étonnant en soi. »

Pour le savoir, ils devraient déterminer les processus cognitifs sous-jacents utilisés par les modèles d’IA, ce qui nécessiterait l’accès au logiciel et aux données utilisées pour former le logiciel, puis administrer des tests dont ils sont sûrs que le logiciel n’a pas déjà été donné. Cela, ont-ils dit, serait la prochaine étape pour décider de ce que l’IA devrait devenir.

« Il serait très utile pour les chercheurs en IA et cognitifs d’avoir le backend des modèles GPT », a déclaré Webb. « Nous ne faisons que des intrants et obtenons des extrants et ce n’est pas aussi décisif que nous le souhaiterions. »