Les tests de psychologie cognitive montrent que les IA sont irrationnelles, mais pas de la même manière que les humains.

Les grands modèles de langage derrière les plates-formes d'IA générative populaires comme ChatGPT ont donné des réponses différentes lorsqu'on leur a demandé de répondre au même test de raisonnement et ne se sont pas améliorés lorsqu'on leur a donné un contexte supplémentaire, révèle une nouvelle étude menée par des chercheurs de l'University College de Londres.

L'étude, publiée dans Science ouverte de la Royal Society, ont testé les grands modèles de langage (LLM) les plus avancés à l'aide de tests de psychologie cognitive pour évaluer leur capacité de raisonnement. Les résultats soulignent l’importance de comprendre comment ces IA « pensent » avant de leur confier des tâches, notamment celles impliquant une prise de décision.

Ces dernières années, les LLM qui alimentent les applications d’IA générative comme ChatGPT sont devenus de plus en plus sophistiqués. Leur capacité à produire des textes, des images, des fichiers audio et vidéo réalistes a suscité des inquiétudes quant à leur capacité à voler des emplois, à influencer les élections et à commettre des crimes.

Pourtant, il a également été démontré que ces IA fabriquent régulièrement des informations, répondent de manière incohérente et même se trompent dans de simples calculs mathématiques.

Dans cette étude, des chercheurs de l’UCL ont systématiquement analysé si sept LLM étaient capables de raisonner de manière rationnelle. Une définition courante d’un agent rationnel (humain ou artificiel), adoptée par les auteurs, est de savoir s’il raisonne selon les règles de la logique et de la probabilité. Un agent irrationnel est un agent qui ne raisonne pas selon ces règles.

Les LLM ont reçu une batterie de 12 tests courants de psychologie cognitive pour évaluer le raisonnement, notamment la tâche de Wason, le problème de Linda et le problème de Monty Hall. La capacité des humains à résoudre ces tâches est faible ; dans des études récentes, seulement 14 % des participants ont réussi le problème de Linda et 16 % ont réussi la tâche de Wason.

Les modèles ont fait preuve d'irrationalité dans bon nombre de leurs réponses, par exemple en fournissant des réponses variables lorsqu'on leur a posé la même question 10 fois. Ils étaient enclins à commettre des erreurs simples, notamment des erreurs d’addition de base et à confondre des consonnes avec des voyelles, ce qui les conduisait à fournir des réponses incorrectes.

Par exemple, les réponses correctes à la tâche Wason allaient de 90 % pour GPT-4 à 0 % pour GPT-3.5 et Google Bard. Lama 2 70b, qui a répondu correctement 10 % du temps, a confondu la lettre K avec une voyelle et a donc mal répondu.

Même si la plupart des humains ne parviendraient pas non plus à répondre correctement à la tâche de Wason, il est peu probable que cela soit dû au fait qu'ils ne savaient pas ce qu'était une voyelle.

Olivia Macmillan-Scott, première auteure de l'étude de l'UCL Computer Science, a déclaré : « Sur la base des résultats de notre étude et d'autres recherches sur de grands modèles de langage, on peut affirmer sans se tromper que ces modèles ne « pensent » pas encore comme les humains. Cela dit, le modèle avec le plus grand ensemble de données, GPT-4, a obtenu de bien meilleurs résultats que les autres modèles, ce qui suggère qu'ils s'améliorent rapidement. Cependant, il est difficile de dire comment ce modèle particulier raisonne car il s'agit d'un système fermé, je suppose. sont d'autres outils utilisés que vous n'auriez pas trouvés dans son prédécesseur GPT-3.5. »

Certains modèles ont refusé de répondre aux tâches pour des raisons éthiques, même si les questions étaient innocentes. Cela est probablement dû à des paramètres de sauvegarde qui ne fonctionnent pas comme prévu.

Les chercheurs ont également fourni un contexte supplémentaire pour les tâches, ce qui s’est avéré améliorer les réponses des personnes. Cependant, les LLM testés n’ont montré aucune amélioration constante.

Le professeur Mirco Musolesi, auteur principal de l'étude de l'UCL Computer Science, a déclaré : « Les capacités de ces modèles sont extrêmement surprenantes, en particulier pour les personnes qui travaillent avec des ordinateurs depuis des décennies, je dirais.

« Ce qui est intéressant, c'est que nous ne comprenons pas vraiment le comportement émergent des grands modèles de langage ni pourquoi et comment ils obtiennent des réponses bonnes ou mauvaises. Nous disposons désormais de méthodes pour affiner ces modèles, mais une question se pose alors : si nous essayons de Pour résoudre ces problèmes en enseignant les modèles, imposons-nous également nos propres défauts ? Ce qui est intrigant, c'est que ces LLM nous font réfléchir sur la façon dont nous raisonnons et sur nos propres préjugés, et si nous voulons des machines entièrement rationnelles comme celles-ci. c'est ce que nous faisons, ou voulons-nous qu'ils soient parfaits ? »

Les modèles testés étaient GPT-4, GPT-3.5, Google Bard, Claude 2, Llama 2 7b, Llama 2 13b et Llama 2 70b.