Est-ce de l'IA ? Les évaluateurs ont du mal à distinguer les LLM de l'écriture humaine
Les grands modèles de langage (LLM) tels que ChatGPT sont devenus si avancés qu'ils peuvent même réussir l'examen de licence médicale américain. Mais quelle est la qualité de la détection de l’IA par les pairs évaluateurs, et comment l’utilisation de l’IA affecte-t-elle leur perception du travail ?
Une équipe dirigée par Lee Schwamm, MD, doyen associé pour la stratégie et la transformation numériques à la Yale School of Medicine, a tenté de répondre à ces questions en organisant un concours de rédaction pour la revue. Accident vasculaire cérébral qui comprenait à la fois des soumissions d’IA et d’humains.
Les chercheurs ont découvert que les évaluateurs avaient du mal à distinguer avec précision les essais humains des essais sur l’IA lorsque la paternité était masquée. Cependant, lorsque les évaluateurs attribuaient un essai comme étant rédigé par l’IA, ils étaient significativement moins susceptibles de le qualifier de meilleur sur un sujet donné.
Schwamm espère que les résultats mettent en évidence la nécessité d’élaborer des politiques sur l’utilisation appropriée de l’IA dans les manuscrits scientifiques. Son équipe a publié ses conclusions dans Accident vasculaire cérébral le 3 septembre.
« Cette étude est un signal d'alarme pour les comités de rédaction, ainsi que pour les éducateurs, sur le fait que nous ne pouvons pas rester les bras croisés en attendant que quelqu'un d'autre découvre cela », a déclaré Schwamm. « Nous devons commencer à réfléchir aux garde-fous appropriés dans ces domaines et déterminer où nous devrions encourager l'utilisation, où devrions-nous être neutres et où nous devrions l'interdire. »
Les évaluateurs ont du mal avec la détection de l'IA
L'équipe de Schwamm a invité les lecteurs de Accident vasculaire cérébral soumettre des essais convaincants sur l'un des trois sujets controversés dans le domaine de l'AVC : par exemple, les statines augmentent-elles le risque d'accident vasculaire cérébral hémorragique ? Les essais devaient compter jusqu'à 1 000 mots et ne contenir pas plus de six références. Au total, les chercheurs ont reçu 22 soumissions humaines.
Ensuite, les chercheurs ont utilisé quatre LLM différents (ChatGPT 3.5, ChatGPT 4, Bard et LLaMA-2) pour rédiger chacun un essai par sujet. Bien qu’ils n’aient pas édité eux-mêmes les essais sur l’IA, ils ont examiné et corrigé les citations de la littérature. « Les références sont l'un de ces endroits où l'IA est connue pour faire beaucoup d'erreurs », explique Schwamm, « Et nous ne voulions pas que cela trahisse l'IA – nous voulions que les évaluateurs se concentrent vraiment sur la qualité de l'écriture. «
Les évaluateurs étaient tous membres du Accident vasculaire cérébral comité de rédaction et il a été demandé à tous d'attribuer la paternité humaine par rapport à l'IA des essais, de les évaluer pour leur qualité et leur pouvoir de persuasion, et de sélectionner le meilleur essai sur un sujet pour chacune des invites. Étonnamment, l’étude a révélé que les évaluateurs n’identifiaient correctement la paternité que dans 50 % des cas. « C'était comme un tirage au sort », dit Schwamm.
En termes de qualité, les évaluateurs ont donné une note plus élevée aux essais sur l’IA qu’aux soumissions humaines. Fait intéressant, après avoir mené une analyse multivariée, l’équipe a découvert que le seul facteur indépendamment associé à de plus grandes chances qu’un évaluateur attribue correctement l’IA comme type d’auteur était le pouvoir de persuasion. « Plus le critique percevait l'article comme étant convaincant, plus il était associé à la paternité de l'IA », explique Schwamm.
L’équipe a également constaté que lorsque les évaluateurs pensaient qu’un essai avait été rédigé par l’IA, ils lui donnaient la meilleure note dans son sujet seulement 4 % du temps. « Les évaluateurs n'étaient pas en mesure de distinguer les essais générés par l'homme et ceux générés par l'IA, mais lorsqu'ils ont décidé qu'un essai avait été rédigé par l'IA, ils ne l'ont presque jamais choisi comme le meilleur de sa catégorie », explique Schwamm.
Les LLM pourraient changer la donne en matière de rédaction scientifique
L’étude suggère qu’à mesure que les LLM progressent, les pairs évaluateurs auront de moins en moins de capacité à détecter le contenu écrit par l’IA. Cela a également révélé les préjugés négatifs des évaluateurs à l’égard du contenu généré automatiquement. À mesure que de plus en plus de contenus sont générés par l’IA ou sont un hybride d’écriture humaine et d’IA, l’étude pose des questions importantes sur le rôle de l’IA dans le contenu scientifique.
Lorsque les LLM ont vu le jour, certaines revues scientifiques, comme Science– a complètement interdit leur utilisation. Plus tard, la publication a ajusté sa position pour permettre aux chercheurs d’inclure une déclaration sur la manière dont ils utilisaient l’IA.
« Nous devons lutter contre la tendance naturelle à considérer l'utilisation des LLM comme injuste, à savoir que vous n'avez pas fourni le travail acharné dont vous aviez besoin », déclare Schwamm. « Nous utilisons désormais l'IA pour faire de la science. Il serait donc ironique de dire qu'elle ne peut pas être impliquée dans la rédaction des résultats. »
Même s’il incombera à l’auteur de vérifier les faits sur les résultats de l’IA, l’utilisation croissante de l’IA ne doit pas nécessairement être négative. « Nous devons commencer à considérer l'IA comme un outil pouvant être exploité », déclare Schwamm. « La technologie nous aide à écrire de toutes sortes de manières, comme les correcteurs orthographiques et les traitements de texte. Il s'agit d'une nouvelle itération de cela. »
Par exemple, la technologie va changer la donne pour les chercheurs américains qui ne sont pas anglophones. « Je pense que cela va uniformiser les règles du jeu dans le bon sens », déclare Schwamm.