ChatGPT écrit de faux résumés scientifiques convaincants qui trompent les examinateurs dans l'étude

Les réviseurs humains ItBlinded, lorsqu’ils reçoivent un mélange de résumés réels et faussement générés, ne peuvent repérer les résumés générés par ChatGPT que 68 % du temps. Les examinateurs ont également identifié à tort 14 % des résumés réels comme étant générés par l’IA. Crédit : Université du Nord-Ouest

Le nouveau chatbot très populaire ChatGPT pourrait-il produire de manière convaincante de faux résumés qui tromperaient les scientifiques en leur faisant croire que ces études sont réelles ?

C’était la question qui préoccupait la médecin-chercheuse de Northwestern Medicine, le Dr Catherine Gao, lorsqu’elle a conçu une étude – en collaboration avec des scientifiques de l’Université de Chicago – pour tester cette théorie.

Oui, les scientifiques peuvent être dupes, leurs nouveaux rapports d’étude. Les examinateurs humains en aveugle – lorsqu’ils reçoivent un mélange de résumés réels et faussement générés – ne peuvent repérer les résumés générés par ChatGPT que 68 % du temps. Les examinateurs ont également identifié à tort 14 % des résumés réels comme étant générés par l’IA.

« Nos examinateurs savaient que certains des résumés qui leur étaient remis étaient faux, ils étaient donc très suspects », a déclaré l’auteur correspondant Gao, instructeur en médecine pulmonaire et en soins intensifs à la Northwestern University Feinberg School of Medicine. « Ce n’est pas quelqu’un qui lit un résumé dans la nature. Le fait que nos examinateurs manquent encore les résumés générés par l’IA 32 % du temps signifie que ces résumés sont vraiment bons. Je soupçonne que si quelqu’un vient de tomber sur l’un de ces résumés générés, ils ne seraient pas nécessairement en mesure de l’identifier comme étant écrit par l’IA. »

Les faux résumés difficiles à détecter pourraient saper la science, a déclaré Gao. « C’est préoccupant car ChatGPT pourrait être utilisé par des » papeteries « pour fabriquer des résumés scientifiques convaincants », a déclaré Gao. « Et si d’autres personnes essaient de construire leur science à partir de ces études incorrectes, cela peut être vraiment dangereux. »

Les papeteries sont des organisations illégales qui produisent des travaux scientifiques fabriqués à des fins lucratives.

La facilité avec laquelle ChatGPT produit des résumés réalistes et convaincants pourrait augmenter la production des papeteries et les fausses soumissions aux revues et conférences scientifiques, s’inquiète Gao.

Les détectives de l’IA peuvent identifier les contrefaçons de l’IA

Pour l’étude, Gao et ses co-chercheurs ont pris des titres d’articles récents de revues à fort impact et ont demandé à ChatGPT de générer des résumés basés sur cette invite. Ils ont passé ces résumés générés et les résumés originaux à travers un détecteur de plagiat et un détecteur de sortie d’IA, et ont demandé à des examinateurs humains aveuglés d’essayer de différencier les résumés générés et originaux. Chaque examinateur a reçu 25 résumés qui étaient un mélange des résumés générés et originaux et a été invité à donner un score binaire de ce qu’ils pensaient que le résumé était.

« Les résumés générés par ChatGPT étaient très convaincants », a déclaré Gao, « car il sait même quelle devrait être la taille de la cohorte de patients lorsqu’il invente des chiffres. » Pour une étude sur l’hypertension, qui est courante, ChatGPT a inclus des dizaines de milliers de patients dans la cohorte, tandis qu’une étude sur un monkeypox avait un nombre beaucoup plus petit de participants.

« Nos examinateurs ont fait remarquer qu’il était étonnamment difficile de faire la différence entre les vrais et les faux résumés », a déclaré Gao.

L’étude a révélé que les faux résumés ne déclenchaient pas d’alarmes à l’aide des outils traditionnels de détection de plagiat. Cependant, dans l’étude, les détecteurs de sortie AI tels que GPT-2 Output Detector, qui est disponible en ligne et gratuitement, pourraient faire la distinction entre les vrais et les faux résumés.

« Nous avons constaté qu’un détecteur de sortie d’IA était assez bon pour détecter la sortie de ChatGPT et suggérons qu’il soit inclus dans le processus éditorial scientifique en tant que processus de sélection pour se protéger du ciblage par des organisations telles que les papeteries qui peuvent essayer de soumettre des données purement générées, », a déclaré Gao.

ChatGPT peut également être utilisé pour de bon

Mais ChatGPT peut également être utilisé pour de bon, a déclaré l’auteur principal de l’étude Yuan Luo, directeur de l’Institut pour l’intelligence augmentée en médecine à Feinberg.

« Les modèles de langage d’IA tels que ChatGPT ont le potentiel d’aider à automatiser le processus d’écriture, qui est souvent le goulot d’étranglement rapide dans la génération et la diffusion des connaissances », a déclaré Luo. « Les résultats de l’article ont montré que cela est probablement faisable pour le domaine de la médecine, mais nous devons combler certaines lacunes éthiques et pratiques. »

Par exemple, l’écriture assistée par l’IA est-elle toujours considérée comme originale, a demandé Luo. En outre, le texte généré par l’IA a actuellement des difficultés à être correctement cité, ce qui est indispensable pour la rédaction scientifique, a-t-il noté.

« La technologie de texte génératif a un grand potentiel pour démocratiser la science, par exemple en permettant aux scientifiques non anglophones de partager plus facilement leur travail avec la communauté au sens large », a déclaré l’auteur principal, le Dr Alexander Pearson, directeur des sciences des données et chef/ Programme de cancer du cou en hématologie/oncologie à l’Université de Chicago. « En même temps, il est impératif que nous réfléchissions attentivement aux meilleures pratiques d’utilisation. »

La recherche est disponible sur le bioRxiv serveur de préimpression.

Fourni par l’Université Northwestern