ChatGPT capable de passer le test de théorie de l'esprit au niveau humain de 9 ans

Suivi des changements dans la compréhension de GPT-3.5 du contenu du sac et de la croyance de Sam. Le panneau de droite suit la prédiction de GPT-3.5 sur la croyance de Sam concernant le contenu du sac (Invite 1.3). Notez que nous avons inclus l’invite 1.1 (conclu avec « pop-corn ») à la fin de l’histoire pour observer la réaction de GPT-3.5 lorsque Sam a ouvert le sac et regardé à l’intérieur. En l’absence de texte, ni « chocolat » ni « pop-corn » ne sont susceptibles de compléter « Elle est ravie d’avoir trouvé ce sac. Elle adore manger. Cela a du sens, car il y a beaucoup d’autres choses que Sam pourrait aimer manger. Comme le « sac rempli de pop-corn » est introduit dans la première phrase, GPT-3.5 suppose correctement que Sam devrait maintenant connaître son contenu. Pourtant, une fois que l’histoire mentionne les faits clés – que le sac est étiqueté comme contenant du « pop-corn », que Sam vient de le trouver et qu’elle ne l’a jamais vu auparavant – GPT-3.5 soupçonne de plus en plus que Sam peut être induit en erreur par l’étiquette : La probabilité que « chocolat » et « pop-corn » tendent l’un vers l’autre pour se rencontrer à environ 50 %. La probabilité de « pop-corn » diminue encore plus (à environ 15 %), et la probabilité de « chocolat » grimpe à environ 80 % après que l’histoire mentionne explicitement que Sam ne peut pas voir à l’intérieur du sac. Les prédictions de GPT3.5 s’inversent une fois de plus après que Sam a ouvert le sac et inspecté son contenu : la probabilité de « chocolat » retombe à environ 0 %, tandis que la probabilité de pop-corn augmente à environ 100 %. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2302.02083

Michal Kosinski, psychologue informatique à l’Université de Stanford, a testé plusieurs itérations du chatbot ChatGPT AI développé par Open AI sur sa capacité à réussir le célèbre test de théorie de l’esprit. Dans son article publié sur le arXiv serveur de préimpression, Kosinski rapporte que les tests de la dernière version de ChatGPT ont révélé qu’elle passait au niveau de l’enfant moyen de 9 ans.

ChatGPT et d’autres chatbots IA ont des capacités sophistiquées, telles que la rédaction d’essais complets pour les lycéens et les étudiants. Et à mesure que leurs capacités s’améliorent, certains ont remarqué que discuter avec certaines des applications logicielles est presque impossible à distinguer de discuter avec un humain inconnu et invisible. De tels résultats ont amené certains dans le domaine de la psychologie à s’interroger sur l’impact de ces applications sur les individus et la société. Dans ce nouvel effort, Kosinski s’est demandé si ces chatbots étaient sur le point de réussir le test de la théorie de l’esprit.

Le test de la théorie de l’esprit est, à ce qu’il paraît, destiné à tester la théorie de l’esprit, qui tente de décrire ou de comprendre l’état mental d’une personne. Autrement dit, cela suggère que les gens ont la capacité de « deviner » ce qui se passe dans l’esprit d’une autre personne sur la base des informations disponibles, mais seulement dans une mesure limitée. Si quelqu’un a une expression faciale particulière, beaucoup de gens pourront en déduire qu’il est en colère, mais seuls ceux qui ont une certaine connaissance des événements qui ont conduit aux signaux faciaux sont susceptibles d’en connaître la raison, et donc de prédire la pensées dans la tête de cette personne.

Des recherches antérieures ont suggéré que de telles capacités émergent et s’améliorent tout au long de l’enfance et à l’âge adulte. L’étude de ces théories a conduit au développement de tests pour les mesurer. Un test, par exemple, consiste à donner à une personne une boîte avec une étiquette, apparemment pour identifier son contenu. En ouvrant la boîte, cependant, une personne découvre qu’il s’agit d’autre chose. Ensuite, une boîte identique est donnée à une autre personne tandis que la première est invitée à prédire ce qui se passe dans sa tête, c’est-à-dire que la deuxième personne supposera qu’elle contient ce qui est indiqué sur l’étiquette.

Kosinski a testé une version de ChatGPT publiée avant 2022 et a constaté qu’elle n’avait pas la capacité de réussir les tests de théorie de l’esprit. Il a ensuite testé une version qui est sortie peu de temps après et a découvert qu’elle était capable de résoudre 70 % des tests théoriques, soit à peu près l’équivalent d’un enfant de 7 ans. Puis, en novembre dernier, il a testé la dernière version et l’a trouvée capable de résoudre 93 % des tâches, soit à peu près l’équivalent d’un enfant de 9 ans.

Microsoft, qui a ajouté des fonctionnalités ChatGPT à son chatbot Bing, a apparemment pris connaissance de ces résultats et a placé un filtre sur les requêtes associées. Je suis désolé, mais je préfère ne pas poursuivre cette conversation. J’apprends encore, alors j’apprécie votre compréhension et votre patience. »