ChatGPT promeut les normes et les valeurs américaines, révèle une étude

GPT-4 est en deçà du seuil de Turing

Une question a suivi sans relâche ChatGPT dans sa trajectoire vers le statut de superstar dans le domaine de l’intelligence artificielle : a-t-il satisfait au test de Turing consistant à générer un résultat impossible à distinguer de la réponse humaine ?

Deux chercheurs de l’Université de Californie à San Diego affirment que cela s’en rapproche, mais pas tout à fait.

ChatGPT peut être intelligent, rapide et impressionnant. Il fait du bon travail en faisant preuve d’une intelligence apparente. Cela ressemble à un humain dans les conversations avec les gens et peut même faire preuve d’humour, imiter la phraséologie des adolescents et réussir des examens de faculté de droit.

Mais il arrive parfois qu’il fournisse des informations totalement fausses. Ça hallucine. Cela ne reflète pas sa propre production.

Cameron Jones, spécialiste du langage, de la sémantique et de l’apprentissage automatique, et Benjamin Bergen, professeur de sciences cognitives, se sont inspirés des travaux d’Alan Turing, qui a conçu il y a 70 ans un processus permettant de déterminer si une machine pouvait atteindre un point d’intelligence et de conversation. prouesse grâce à laquelle il pourrait tromper quelqu’un en lui faisant croire qu’il était humain.

Leur rapport intitulé « GPT-4 réussit-il le test de Turing ? » est disponible sur le arXiv serveur de préimpression.

Ils ont rassemblé 650 participants et généré 1 400 « jeux » dans lesquels de brèves conversations ont été menées entre les participants et soit un autre humain, soit un modèle GPT. Il a été demandé aux participants de déterminer avec qui ils conversaient.

Les chercheurs ont découvert que les modèles GPT-4 trompaient les participants 41 % du temps, tandis que GPT-3.5 ne les trompait que 5 à 14 % du temps. Il est intéressant de noter que les humains n’ont réussi à convaincre les participants qu’ils n’étaient pas des machines dans seulement 63 % des essais.

Les chercheurs ont conclu : « Nous ne trouvons aucune preuve que GPT-4 réussisse le test de Turing. »

Ils ont cependant noté que le test de Turing conserve toujours sa valeur en tant que mesure de l’efficacité du dialogue machine.

« Le test est toujours pertinent en tant que cadre pour mesurer les interactions sociales fluides et la tromperie, et pour comprendre les stratégies humaines pour s’adapter à ces appareils », ont-ils déclaré.

Ils ont averti que dans de nombreux cas, les chatbots peuvent encore communiquer de manière suffisamment convaincante pour tromper les utilisateurs.

« Un taux de réussite de 41 % suggère que la tromperie des modèles d’IA est déjà probable, en particulier dans des contextes où les interlocuteurs humains sont moins conscients de la possibilité qu’ils ne parlent pas à un humain », ont-ils déclaré. « Les modèles d’IA capables de se faire passer pour des personnes de manière robuste auraient pu avoir des conséquences sociales et économiques étendues. »

Les chercheurs ont observé que les participants effectuant des identifications correctes se concentraient sur plusieurs facteurs.

Les modèles trop formels ou trop informels ont suscité l’inquiétude des participants. S’ils étaient trop verbeux ou trop brefs, si leur grammaire ou leur utilisation de la ponctuation était exceptionnellement bonne ou « peu convaincante » mauvaise, leur utilisation devenait des facteurs clés pour déterminer si les participants avaient affaire à des humains ou à des machines.

Les candidats étaient également sensibles aux réponses à consonance générique.

« Les LLM apprennent à produire des résultats très probables et sont affinés pour éviter les opinions controversées. Ces processus pourraient encourager des réponses génériques qui sont globalement typiques, mais qui manquent de l’idiosyncrasie typique d’un individu : une sorte d’erreur écologique », ont déclaré les chercheurs.

Les chercheurs ont suggéré qu’il serait important de suivre les modèles d’IA à mesure qu’ils gagneraient en fluidité et absorberaient davantage de bizarreries humaines dans les conversations.

« Il deviendra de plus en plus important d’identifier les facteurs qui conduisent à la tromperie et les stratégies pour l’atténuer », ont-ils déclaré.