sept tests alternatifs pour prouver qu'une IA n'est pas un humain

Le débat philosophique des 70 dernières années autour des robots et de l’intelligence artificielle ne peut être compris sans le test de Turing. « Les machines peuvent-elles penser ? ou plus précisément « les machines peuvent-elles faire ce que nous (en tant qu’entités pensantes) faisons? ». Pour obtenir une réponse, il a été proposé de soumettre les IA et les machines à un jeu d’imitation. Un test pour voir si des machines pouvaient passer pour des humains. Malheureusement, ce test est complètement obsolète depuis des années. Ce sont les alternatives.

Le test de Lovelace 2.0. En 2001, Mark Riedl, professeur au Georgia Institute of Technology, a conçu un nouveau test, nommé d’après le célèbre math. Et en 2014 mis à jour. Alors que le test de Turing est basé sur la capacité d’une machine à imiter les humains, le test de Lovelace se concentre sur l’aspect créatif.

Pour réussir le test, l’IA doit être capable d’écrire une histoire fictive, de créer un poème ou de créer une peinture et d’obtenir l’approbation des examinateurs. Cela nécessite des tâches complexes telles que la compréhension des tailles relatives ou le mélange de concepts. Cependant, récemment avec le boom des IA génératives telles que Stable Diffusion ou ChatGPT, nous avons déjà vu qu’elles sont capables de passer facilement le test.

Le test de schéma de Winograd. Terry Winograd, professeur de psychologie et d’intelligence artificielle à l’université de Stanford, a proposé un test qui consiste à résoudre des anaphores. Dans ce cas, identifiez l’antécédent d’un pronom ambigu. Avec cela, le test vise à tester le traitement du langage naturel. Les machines sont douées pour résoudre des questions ou des questions qui peuvent être comprises comme un algorithme, mais lorsque le langage est plus courant, beaucoup d’entre elles échouent.

L’exemple original est le suivant : « Les conseillers municipaux ont refusé l’autorisation aux manifestants parce qu’ils [temían/defendían] La question est de savoir si « ils » désignent les élus ou les manifestants. Pour réussir le test, la machine doit identifier la relation entre les différents éléments et comprendre le contexte sous-jacent, qui n’est pas directement précisé. Comme cette phrase, il y a sont des centaines de semblables. Aujourd’hui, ces régimes sont à la base de des repères comme GLUE (« Évaluation de la compréhension générale de la langue »).

Essai eugénien. Eugene Goostman a été l’un des premiers à montrer que le test de Turing était obsolète. Au lieu de cela, il a proposé une série de tests où les capacités des machines dans des domaines tels que la vision artificielle ou la reconnaissance vocale sont mises à l’épreuve. Parmi les tests, il y aurait le déchiffrage du sens d’une vidéo ou quelque chose d’aussi « humain » que l’assemblage d’un meuble.

Cela peut sembler être un processus mécanique, mais la machine doit identifier les pièces du meuble, comprendre les instructions et enfin l’assembler. Si les IA veulent se faire passer pour des humains, elles feraient mieux de commencer par Ikea.

L’essai de Marc. En un article du New Yorker, Gary Marcus, professeur de psychologie à l’Université de New York, a décrit une alternative au test de Turing. Dans ce cas en se concentrant sur une autre capacité très humaine : l’humour.

Le test de Marcus consiste à donner à l’IA une émission télévisée et à nous dire quand nous devrions rire. Ou donnez-lui un documentaire de guerre et décrivez les motivations politiques. Comprendre le sarcasme, l’ironie et l’humour est le test que Marcus pense que les machines devraient être capables de réussir pour ressembler aux humains. À la surprise de quelques-uns, même cet obstacle est en train d’être surmonté.

Le CAPTCHA classique. Nous les avons vus sur des centaines de sites Web. Il s’agit du filtre antispam le plus connu et, au fil du temps, il a évolué vers différentes formes. Ils sont un test très efficace (quoique de moins en moins) pour détecter si c’est un bot ou une personne humaine qui tente d’accéder.

Ces CAPTCHA sont des exemples de ce qu’on appelle un test de Turing inversé. La proposition surgit dans les années 2000 et est décrit par le professeur Peter Swirski. Le défi pour les machines vient d’essayer de comprendre un concept lorsque les éléments sont en désordre ou directement déformés. Pour résoudre de nombreux CAPTCHA, vous avez besoin d’un esprit ouvert et même d’imagination pour relier les concepts. Un type de tests où les IA, qui fonctionnent avec des paramètres fixes, peuvent avoir des difficultés.

Qu'est-ce que l'effet ELIZA, ou pourquoi nous sommes si surpris de lire un article "écrit" par une intelligence artificielle comme GPT-3

Le test de Feigenbaum. Dans son livre ‘La Singularité est proche’, Raymond Kurzweil inclut une alternative au test de Turing proposé par Edward Feigenbaum en 2003. Le test consiste à choisir un sujet précis et à essayer de faire en sorte que l’IA se pose en experte dans ce domaine. Si l’humain ne parvient pas à le détecter, la machine réussit le test. On passe ici de la complexité de la matière aux particularités moins connues. Et même être capable de décrire des sujets dans ce domaine avec autorité et cohérence.

Le test définitif : le test d’Ebert. Dans ce cas, ce n’est pas un psychanalyste ou un ingénieur qui a proposé le test, mais critique de cinéma Robert Ebert. C’est le cas qu’Ebert a perdu sa voix après une opération et a utilisé un synthétiseur vocal. Et c’est là qu’intervient le test : le défi est une machine capable de reproduire les intonations humaines, de bien synchroniser les mots, et le plus difficile : être capable de faire rire les gens.

Pour qu’une IA nous fasse rire, il ne suffit pas de simplement choisir une blague dans une base de données. Il doit être capable de transmettre, d’exciter, d’apporter quelque chose d’original et de nouveau. Probablement de toutes les alternatives au test de Turing, le test d’Ebert est le plus difficile à réussir.

Image générée avec Midjourney par Enrique Pérez