L’utilisation de l’IA nous fait surestimer nos performances cognitives, révèle une étude

L’utilisation de l’IA nous fait surestimer nos performances cognitives, révèle une étude

Lorsqu'il s'agit d'évaluer notre niveau de compétence dans un domaine donné, les recherches montrent systématiquement que nous avons tendance à nous évaluer légèrement au-dessus de la moyenne. Cette tendance est plus forte chez les personnes dont les résultats aux tests cognitifs sont faibles. C'est ce qu'on appelle l'effet Dunning-Kruger (DKE) : plus les gens sont mauvais dans quelque chose, plus ils ont tendance à surestimer leurs capacités, et plus ils sont « intelligents », moins ils réalisent leurs véritables capacités.

Cependant, une étude menée par l'Université Aalto révèle qu'en ce qui concerne l'IA, en particulier les grands modèles de langage (LLM), le DKE ne tient pas, les chercheurs constatant que tous les utilisateurs présentent une incapacité significative à évaluer leurs performances avec précision lorsqu'ils utilisent ChatGPT. En fait, dans l’ensemble, les gens ont surestimé leurs performances. En plus de cela, les chercheurs ont identifié une inversion de l’effet Dunning-Kruger – une tendance identifiable pour les utilisateurs qui se considèrent comme plus compétents en IA à supposer que leurs capacités sont supérieures à ce qu’elles sont réellement.

« Nous avons constaté que lorsqu'il s'agit d'IA, le DKE disparaît. En fait, ce qui est vraiment surprenant, c'est qu'une plus grande connaissance de l'IA entraîne un excès de confiance », explique le professeur Robin Welsch. « Nous nous attendrions à ce que les personnes maîtrisant l'IA soient non seulement un peu meilleures pour interagir avec les systèmes d'IA, mais aussi pour juger de leurs performances avec ces systèmes, mais ce n'était pas le cas. »

Cette découverte s'ajoute à un volume de recherche en croissance rapide indiquant que faire aveuglément confiance aux résultats de l'IA comporte des risques tels que la « réduction » de la capacité des gens à trouver des informations fiables et même la déqualification de la main-d'œuvre. Bien que les gens aient obtenu de meilleurs résultats en utilisant ChatGPT, il est préoccupant qu'ils aient tous surestimé ces performances.

« La maîtrise de l'IA est vraiment importante de nos jours, et c'est donc un effet très frappant. La maîtrise de l'IA est peut-être très technique, et elle n'aide pas vraiment les gens à interagir de manière fructueuse avec les systèmes d'IA », explique Welsch.

« Les outils d'IA actuels ne suffisent pas. Ils ne favorisent pas la métacognition [awareness of one’s own thought processes] et nous n'apprenons pas nos erreurs », ajoute la doctorante Daniela da Silva Fernandes. « Nous devons créer des plateformes qui encouragent notre processus de réflexion. »

L'article paraît dans Les ordinateurs dans le comportement humain.

Pourquoi une seule invite ne suffit pas

Les chercheurs ont conçu deux expériences dans lesquelles quelque 500 participants ont utilisé l'IA pour accomplir des tâches de raisonnement logique du célèbre test d'admission à la faculté de droit (LSAT) américain. La moitié du groupe a utilisé l’IA et l’autre non. Après chaque tâche, les sujets devaient surveiller leurs performances et s’ils le faisaient avec précision, on leur promettait une compensation supplémentaire.

« Ces tâches nécessitent beaucoup d'efforts cognitifs. Maintenant que les gens utilisent l'IA quotidiennement, il est courant de confier quelque chose comme ça à l'IA pour qu'elle le résolve, car c'est très difficile », explique Welsch.

Les données ont révélé que la plupart des utilisateurs demandaient rarement à ChatGPT plus d'une fois par question. Souvent, ils copiaient simplement la question, la plaçaient dans le système d'IA et étaient satisfaits de la solution de l'IA sans vérifier ni remettre en question.

« Nous avons examiné s'ils réfléchissaient réellement avec le système d'IA et avons constaté que les gens pensaient simplement que l'IA résoudrait les problèmes à leur place. Habituellement, il n'y avait qu'une seule interaction pour obtenir les résultats, ce qui signifie que les utilisateurs faisaient aveuglément confiance au système. C'est ce que nous appelons le déchargement cognitif, lorsque tout le traitement est effectué par l'IA », explique Welsch.

Ce faible niveau d’engagement a peut-être limité les indices nécessaires pour calibrer la confiance et permettre une auto-surveillance précise. Par conséquent, il est plausible qu'encourager ou exiger expérimentalement plusieurs invites puisse fournir de meilleures boucles de rétroaction, améliorant ainsi la métacognition des utilisateurs, dit-il.

Alors, quelle est la solution pratique pour les utilisateurs quotidiens d’IA ?

« L'IA pourrait demander aux utilisateurs s'ils peuvent expliquer davantage leur raisonnement. Cela obligerait l'utilisateur à s'impliquer davantage dans l'IA, à faire face à son illusion de connaissance et à promouvoir la pensée critique », explique Fernandes.