L’IA est plus proche que jamais de réussir le test de Turing en matière d’« intelligence ». Que se passe-t-il quand c’est le cas ?
En 1950, l’informaticien britannique Alan Turing proposait une méthode expérimentale pour répondre à la question : les machines peuvent-elles penser ? Il a suggéré que si un humain ne pouvait pas dire s’il parlait à une machine artificiellement intelligente (IA) ou à un autre humain après cinq minutes d’interrogatoire, cela démontrerait que l’IA possède une intelligence semblable à celle de l’humain.
Bien que les systèmes d’IA soient restés loin de réussir le test de Turing de son vivant, il a émis l’hypothèse que « […] dans 50 ans environ, il sera possible de programmer des ordinateurs […] pour leur faire jouer si bien le jeu de l’imitation qu’un interrogateur moyen n’aura pas plus de 70 % de chances de réaliser la bonne identification après cinq minutes d’interrogatoire.
Aujourd’hui, plus de 70 ans après la proposition de Turing, aucune IA n’a réussi à réussir le test en remplissant les conditions spécifiques qu’il a énoncées. Néanmoins, comme le reflètent certains titres, quelques systèmes s’en sont assez rapprochés.
Une expérience récente a testé trois grands modèles de langage, dont GPT-4 (la technologie d’IA derrière ChatGPT). Les participants ont passé deux minutes à discuter avec une autre personne ou avec un système d’IA. L’IA était invitée à faire de petites fautes d’orthographe et à s’arrêter si le testeur devenait trop agressif.
Grâce à cette incitation, l’IA a fait du bon travail en trompant les testeurs. Lorsqu’ils étaient associés à un robot IA, les testeurs ne pouvaient deviner correctement s’ils parlaient à un système IA que 60 % du temps.
Compte tenu des progrès rapides réalisés dans la conception de systèmes de traitement du langage naturel, nous pourrions voir l’IA réussir le test initial de Turing dans les prochaines années.
Mais imiter les humains est-il vraiment un test efficace d’intelligence ? Et si ce n’est pas le cas, quels autres critères de référence pourrions-nous utiliser pour mesurer les capacités de l’IA ?
Limites du test de Turing
Même si un système réussissant le test de Turing nous donne « quelques » preuves de son intelligence, ce test n’est pas un test décisif d’intelligence. Un problème est que cela peut produire des « faux négatifs ».
Les grands modèles de langage actuels sont souvent conçus pour déclarer immédiatement qu’ils ne sont pas humains. Par exemple, lorsque vous posez une question à ChatGPT, il fait souvent précéder sa réponse de la phrase « en tant que modèle de langage d’IA ». Même si les systèmes d’IA ont la capacité sous-jacente de réussir le test de Turing, ce type de programmation annulerait cette capacité.
Le test risque également certains types de « faux positifs ». Comme le philosophe Ned Block l’a souligné dans un article de 1981, un système pourrait éventuellement réussir le test de Turing simplement en étant codé en dur avec une réponse humaine à toute entrée possible.
Au-delà de cela, le test de Turing se concentre particulièrement sur la cognition humaine. Si la cognition de l’IA diffère de la cognition humaine, un interrogateur expert sera en mesure de trouver une tâche pour laquelle les performances des IA et des humains diffèrent.
Concernant ce problème, Turing a écrit : « Cette objection est très forte, mais au moins nous pouvons dire que si, néanmoins, une machine peut être construite pour jouer au jeu de l’imitation de manière satisfaisante, nous n’avons pas besoin d’être troublés par cette objection. »
En d’autres termes, même si réussir le test de Turing constitue une bonne preuve qu’un système est intelligent, l’échec ne constitue pas une bonne preuve qu’un système n’est « pas » intelligent.
De plus, le test n’est pas une bonne mesure pour savoir si les IA sont conscientes, si elles peuvent ressentir de la douleur et du plaisir, ou si elles ont une signification morale. Selon de nombreux spécialistes des sciences cognitives, la conscience implique un ensemble particulier de capacités mentales, notamment une mémoire de travail, des pensées d’ordre supérieur et la capacité de percevoir son environnement et de modéliser la façon dont son corps se déplace autour de celui-ci.
Le test de Turing ne répond pas à la question de savoir si les systèmes d’IA possèdent ou non ces capacités.
Les capacités croissantes de l’IA
Le test de Turing repose sur une certaine logique. Autrement dit : les humains sont intelligents, donc tout ce qui peut imiter efficacement les humains est susceptible d’être intelligent.
Mais cette idée ne nous dit rien sur la nature de l’intelligence. Une autre façon de mesurer l’intelligence de l’IA consiste à réfléchir de manière plus critique à ce qu’est l’intelligence.
Il n’existe actuellement aucun test unique permettant de mesurer avec autorité l’intelligence artificielle ou humaine.
Au niveau le plus large, nous pouvons considérer l’intelligence comme la capacité d’atteindre une série d’objectifs dans différents environnements. Les systèmes plus intelligents sont ceux qui peuvent atteindre un plus large éventail d’objectifs dans un plus large éventail d’environnements.
En tant que tel, la meilleure façon de suivre les progrès dans la conception de systèmes d’IA à usage général est d’évaluer leurs performances sur diverses tâches. Les chercheurs en apprentissage automatique ont développé une série de critères pour y parvenir.
Par exemple, GPT-4 a été capable de répondre correctement à 86 % des questions de compréhension linguistique multitâche massive, une référence mesurant les performances aux tests à choix multiples dans une gamme de matières académiques de niveau universitaire.
Il a également obtenu des résultats favorables dans AgentBench, un outil qui peut mesurer la capacité d’un grand modèle de langage à se comporter comme un agent, par exemple en naviguant sur le Web, en achetant des produits en ligne et en participant à des jeux.
Le test de Turing est-il toujours d’actualité ?
Le test de Turing est une mesure d’imitation, c’est-à-dire de la capacité de l’IA à simuler le comportement humain. Les grands modèles de langage sont des imitateurs experts, ce qui se reflète désormais dans leur capacité à réussir le test de Turing. Mais l’intelligence n’est pas la même chose que l’imitation.
Il existe autant de types d’intelligence que d’objectifs à atteindre. La meilleure façon de comprendre l’intelligence de l’IA est de suivre ses progrès dans le développement d’une série de capacités importantes.
Dans le même temps, il est important de ne pas continuer à « changer les objectifs » lorsqu’il s’agit de savoir si l’IA est intelligente. Étant donné que les capacités de l’IA s’améliorent rapidement, les critiques de l’idée de l’intelligence artificielle découvrent constamment de nouvelles tâches que les systèmes d’IA peuvent avoir du mal à accomplir, pour ensuite découvrir qu’ils ont franchi un nouvel obstacle.
Dans ce contexte, la question pertinente n’est pas de savoir si les systèmes d’IA sont intelligents, mais plus précisément de quels « types » d’intelligence ils peuvent disposer.