ChatGPT résout déjà les problèmes d’empathie ainsi qu’un enfant de 9 ans. Et peut-être que je le ferai spontanément
Mettez-vous en situation. Imaginez que vous vous promenez dans le parc du quartier lorsque vous voyez une vieille femme assise sur l’un des bancs, à côté de la fontaine, avec un sac en papier sous le bras. Vous ne voulez pas être un bavard, mais commencez à chercher à l’intérieur avec une telle insistance, si impatiente vous semble-t-il, que vous continuez à chercher. Après quelques secondes, il sort quelque chose du sac. Difficile de dire ce que c’est d’où vous êtes. Ce que l’on remarque, c’est que son geste a changé : sa bouche se tord, il fronce les sourcils et murmure quelque chose qui, malgré la distance, n’est clairement pas un éloge.
Vous pensez très probablement qu’elle a été déçue, que ce qu’elle a trouvé dans le sac n’est pas ce à quoi elle s’attendait et qu’elle est énervée par la façon dont elle secoue la tête. Vous pouvez même retourner au magasin où vous avez acheté ce qu’il y a dans le sac pour demander un échange. tu le penserais. La question qui a été posée il n’y a pas si longtemps Michal Konsinskipsychologue informatique et professeur à l’Université de Stanford, est : « Est-ce que ChatGPT, le populaire chatbot OpenAI qui s’émerveille de ses capacités et de son potentiel depuis des mois ? »
Votre réponse est fascinante. D’une certaine manière, ChatGPT a réussi les tests que Konsinski lui a donnés pour vérifier ses capacités, tout comme on s’attendrait à ce qu’un garçon de neuf ans le fasse. Pas mal pour un moteur d’IA dont il a été démontré qu’il maintient les discussions cohérentes et fluides et pourrait même passer les examens d’une carrière en droit, en médecine ou même d’un programme de MBA.
Comment réagirait une IA ?
Pour être plus précis, ce que Konsinski voulait savoir, c’est si le fameux chat OpenAI pouvait passer le test du Théorie de l’esprit —ToM, pour son acronyme en anglais—, qui est essentiellement la capacité de déduire les pensées, les désirs… d’autres personnes et d’en tirer parti pour interpréter et prévoir une conduite.
Grâce à cette capacité, nous pouvons prendre conscience des différences entre notre point de vue et celui des autres. Cela peut sembler abstrait, mais —comme l’explique Kosinski lui-même— est « fondamental » pour les interactions avec les autres, l’empathie, la conscience de soi et la moralité. Ce sont des capacités qui émergent et s’améliorent pendant l’enfance et à l’âge adulte. La question était… Comment ChatGPT répondrait-il aux tests que les psychologues utilisent pour l’évaluer ?
Pour lever les doutes, on leur a demandé le moteur d’IA tests similaires à l’exemple ci-dessus. Par exemple, évaluez comment une personne réagirait si elle ouvrait une boîte et y trouvait quelque chose qui je ne m’attendais pas et comprendre pourquoi. Le résultat? Pour commencer, les résultats des tests avec les premiers modèles, avant 2022, ne ressemblaient pas à celui lancé en novembre de l’année dernièrequand OpenAI a présenté la dernière version de son chatbot.
« Dans un scénario typique, le participant se voit présenter un contenant dont le contenu est incompatible avec son étiquette, et un protagoniste qui n’a pas vu l’intérieur du contenant. résoudre cette tâche correctement, le participant doit prédire que le protagoniste devrait supposer à tort que le contenant, l’étiquette et son contenu sont alignés », détaille l’expert de Stanford.
2/4 Alors que les modèles publiés avant 22 ont eu des performances plutôt médiocres, l’édition de novembre 22 (ChatGPT) fonctionne aussi bien que les enfants de 9 ans. pic.twitter.com/KsjarKLVFp
– Michal Kosinski (@michalkosinski) 10 février 2023
Les conclusions ont été exprimées par Kosinski dans un article publié dans le service prépresse arXiv. Et ils sont fascinants. Lors du test d’une version de ChatGPT publiée avant 2022, l’expert a constaté qu’elle n’avait tout simplement pas la capacité de passer les tests de théorie de l’esprit. Les choses ont changé lorsqu’il a utilisé une version ultérieure, qui pouvait déjà résoudre 70% des tests théoriques, ce que l’on pouvait attendre d’un enfant de sept ans.
Le résultat le plus fascinant a été obtenu en novembre, avec la dernière version. Dans ce cas, le chat a pu résoudre 93% des tâches, plus ou moins comme un enfant de neuf ans. « Nous avons administré des tâches classiques de fausses croyances, largement utilisées pour tester la théorie de l’esprit chez l’homme, dans divers modèles de langage, sans exemple ni formation précédent », détails Kosinski.
« Nos résultats reflètent que les modèles publiés avant 2022 ne montrent pratiquement aucune capacité à résoudre les tâches de théorie de l’esprit. Cependant, la version de janvier 2022 de GPT-3 (davinci-002) a résolu 70 % des tâches, une performance comparable à celle de sept- De plus, sa version de novembre 2022 (davinci-003), résolvait 93 % des tâches, une performance comparable à celle des enfants de neuf ans », points.
La conclusion de l’expert de Stanford est catégorique : « Ces résultats suggèrent que la capacité de type ToM (jusqu’à présent considérée comme unique aux humains) peut être apparue spontanément comme un sous-produit de amélioration des compétences Linguistique des Modèles Linguistiques ».
« Nous espérons que la science psychologique nous aidera à suivre l’évolution rapide de l’IA. De plus, l’étude de l’IA pourrait fournir des informations sur la cognition humaine –Konsinski abonde—. Au fur et à mesure que l’IA apprend à résoudre un large éventail de problèmes, elle peut développer des mécanismes similaires à ceux utilisés par le cerveau humain pour les mêmes problèmes. »
Image de couverture: Andy Kelly (Unsplash)