Chatgpt vient de passer le test de Turing, mais cela ne signifie pas que l'IA est maintenant aussi intelligente que les humains

Chatgpt vient de passer le test de Turing, mais cela ne signifie pas que l’IA est maintenant aussi intelligente que les humains

Il y a eu plusieurs titres au cours de la semaine dernière à propos d’un chatbot d’IA qui réussit officiellement le test de Turing.

Ces reportages sont basés sur une récente étude de préparation de deux chercheurs à l’Université de Californie San Diego dans laquelle quatre modèles de grande langue (LLM) ont été passés par le test Turing. Un modèle – GPT-4.5 d’Openai – était jugé indiscernable d’un humain plus de 70% du temps.

Le test de Turing a été popularisé comme l’indicateur ultime de l’intelligence machine. Cependant, il y a un désaccord sur la validité de ce test. En fait, il a une histoire litigieuse qui remet en question son efficacité pour mesurer l’intelligence des machines.

Alors, qu’est-ce que cela signifie pour la signification de cette nouvelle étude?

Qu’a trouvé l’étude?

L’étude préalable des scientifiques cognitives Cameron Jones et Benjamin Bergen a été publiée en mars, mais n’a pas encore été évaluée par des pairs. Il a testé 4 LLMS: Eliza, GPT-4O, LLAMA-3.1-405B et GPT-4.5.

Les tests étaient constitués de participants effectuant huit cycles de conversations dans lesquels ils ont agi en tant qu’interrogateur échangeant simultanément des messages texte avec deux témoins. Un témoin était un humain et l’autre un LLM. Quelque 284 participants ont été assignés au hasard pour être soit l’interrogateur ou le témoin.

Les participants devaient interagir avec les deux témoins simultanément sur un écran fendu pendant cinq minutes, l’interface de test imitant celle d’une interface de messagerie conventionnelle. Après cette interaction, ils ont décidé quel témoin était un humain et qui était un chatbot d’IA.

Les participants ont jugé le GPT-4,5 comme les 73% humains du temps, et LLAMA-3.1-405B est l’humain 56% du temps. Les deux autres modèles (Eliza et GPT-4O) n’ont trompé les participants que 23% et 21% du temps respectivement.

Qu’est-ce que le test Turing exactement?

La première itération du test de Turing a été présentée par le mathématicien et informaticien anglais Alan Turing dans un article de 1948 intitulé « Machinery intelligent ». Il a été initialement proposé comme une expérience impliquant trois personnes jouant des échecs avec une machine théorique appelée machine papier, deux étant des joueurs et une étant opérateur.

Dans la publication de 1950 «Computing Machinery and Intelligence», Turing a réintroduit l’expérience comme le «jeu d’imitation» et a affirmé que c’était un moyen de déterminer la capacité d’une machine à montrer un comportement intelligent équivalent à un humain. Cela impliquait trois participants: le participant A était une femme, le participant B un homme et le participant C, soit le sexe.

Grâce à une série de questions, le participant C est nécessaire pour déterminer si « x est a et y est B » ou « x est b et y est a », avec x et y représentant les deux sexes.

Une proposition est ensuite soulevée: « Que se passera-t-il lorsqu’une machine prendra le rôle de A dans ce jeu? L’interrogateur décidera-t-il à tort aussi souvent lorsque le jeu est joué comme ça comme il le fait lorsque le jeu est joué entre un homme et une femme? »

Ces questions étaient destinées à remplacer la question ambiguë, « Les machines peuvent-elles penser? ». Turing a affirmé que cette question était ambiguë car elle nécessitait une compréhension des termes «machine» et «penser», dont les utilisations «normales» des mots rendraient une réponse à la question inadéquate.

Au fil des ans, cette expérience a été popularisée comme le test de Turing. Alors que le sujet variait, le test est resté une délibération sur la question de savoir si « x est a et y est b » ou « x est b et y est A. »

Pourquoi est-ce controversé?

Bien que popularisé comme moyen de tester l’intelligence des machines, le test de Turing n’est pas accepté à l’unanimité comme un moyen précis de le faire. En fait, le test est fréquemment contesté.

Il y a quatre principales objections au test de Turing:

  1. Comportement vs pensée. Certains chercheurs soutiennent la capacité de « passer » le test est une question de comportement, pas d’intelligence. Par conséquent, il ne serait pas contradictoire de dire qu’une machine peut passer le jeu d’imitation, mais ne peut pas penser.
  2. Les cerveaux ne sont pas des machines. Turing fait des affirmations Le cerveau est une machine, affirmant qu’elle peut être expliquée en termes purement mécaniques. De nombreux universitaires réfutent cette affirmation et remettent en question la validité du test sur cette base.
  3. Opérations internes. Comme les ordinateurs ne sont pas des humains, leur processus pour parvenir à une conclusion peut ne pas être comparable à celui d’une personne, ce qui rend le test inadéquat car une comparaison directe ne peut pas fonctionner.
  4. Portée du test. Certains chercheurs pensent que seul un seul comportement ne suffit pas pour déterminer l’intelligence.

Alors, un LLM est-il aussi intelligent qu’un humain?

Alors que l’article de préparation affirme que GPT-4.5 a réussi le test de Turing, il indique également que « le test de Turing est une mesure de substituabilité: si un système peut se tenir debout pour une vraie personne sans […] remarquer la différence. « 

Cela implique que les chercheurs ne soutiennent pas l’idée que le test de Turing soit une indication légitime de l’intelligence humaine. C’est plutôt une indication de l’imitation de l’intelligence humaine – une ode aux origines du test.

Il convient également de noter que les conditions de l’étude n’étaient pas sans problème. Par exemple, une fenêtre de test de cinq minutes est relativement courte.

De plus, chacun des LLM a été invité à adopter une personnalité particulière, mais on ne sait pas quels étaient les détails et l’impact des « personnages » sur le test.

Pour l’instant, il est sûr de dire que le GPT-4.5 n’est pas aussi intelligent que les humains – bien qu’il puisse faire un travail raisonnable pour convaincre certaines personnes autrement.