Comment l'IA peut saper l'examen par les pairs

Comment l’IA peut saper l’examen par les pairs

Plus tôt cette année, j’ai reçu des commentaires sur un de mes manuscrits académiques dans le cadre du processus de révision des pairs habituel, et j’ai remarqué quelque chose d’étrange.

Mes recherches se concentrent sur la garantie de preuves dignes de confiance pour éclairer la politique, la pratique et la prise de décision. Je collabore souvent avec des groupes comme l’Organisation mondiale de la santé pour effectuer des revues systématiques pour éclairer les directives ou la politique de santé clinique et publique. Le document que j’avais soumis pour l’examen par les pairs portait sur la conduite de l’examen systématique.

Ce que j’ai remarqué a soulevé mes préoccupations concernant le rôle croissant de l’intelligence artificielle (IA) joue dans le processus scientifique.

Un service à la communauté

L’examen par les pairs est fondamental pour l’édition académique, garantissant que la recherche est rigoureusement critiquée avant la publication et la diffusion. Dans ce processus, les chercheurs soumettent leur travail à une revue où les éditeurs invitent les pairs experts à fournir des commentaires. Cela profite à tous les impliqués.

Pour les pairs examinateurs, il est favorablement pris en compte lors de la demande de financement ou de promotion car il est considéré comme un service à la communauté. Pour les chercheurs, il les met au défi d’affiner leurs méthodologies, de clarifier leurs arguments et de résoudre les faiblesses pour prouver que leur travail est digne de publication. Pour le public, l’examen par les pairs garantit que les résultats de la recherche sont dignes de confiance.

Même à première vue, les commentaires que j’ai reçus sur mon manuscrit en janvier de cette année semblaient étranges.

Tout d’abord, le ton était beaucoup trop uniforme et générique. Il y avait également un manque inattendu de nuances, de profondeur ou de personnalité. Et le réviseur n’avait fourni aucun numéro de page ou ligne et aucun exemplaire spécifique de ce qui devait être amélioré pour guider mes révisions.

Par exemple, ils m’ont suggéré de « supprimer les explications redondantes ». Cependant, ils n’ont pas indiqué quelles explications étaient redondantes, ni même où elles se sont produites dans le manuscrit.

Ils m’ont également suggéré d’ordonner ma liste de référence d’une manière bizarre qui n’a pas pris en compte les exigences du journal et n’a suivi aucun format que j’ai vu reproduit dans une revue scientifique. Ils ont fourni des commentaires relatifs aux sous-titres qui n’existaient pas.

Et bien que le Journal ne nécessitait aucune section de «discussion», le réviseur par les pairs avait fourni la suggestion suivante pour améliorer ma discussion inexistante: «S’attaquer aux orientations futures pour un raffinement supplémentaire de [the content of the paper] améliorerait la perspective prospective du papier. « 

Tester mes soupçons

Pour tester mes soupçons, la revue était, au moins en partie, écrite par AI, j’ai téléchargé mon propre manuscrit sur trois modèles AI – ChatGPT-4O, Gemini 1.5pro et Deepseek-V3. J’ai ensuite comparé les commentaires de la revue par les pairs avec la sortie des modèles.

Par exemple, le commentaire de la revue par les pairs concernant la lecture abstraite:

« Aborder brièvement les implications plus larges de [main output of paper] Pour une revue systématique, les résultats pour souligner son importance. « 

La sortie de ChatGPT-4O concernant la lecture abstraite:

« Conclure par une phrase résumant les implications plus larges ou l’impact potentiel [main output of paper] sur les revues systématiques ou les pratiques fondées sur des preuves. « 

Le commentaire de l’examinateur de pairs concernant les méthodes lues:

« La transparence méthodologique est louable, avec une documentation détaillée de la [process we undertook] et la raison d’être des changements. S’aligner sur [gold standard] Les exigences de déclaration sont un point fort, assurant une compatibilité avec les meilleures pratiques actuelles. « 

La sortie de ChatGPT-4O concernant les méthodes lues:

« Décrit clairement le processus de [process we undertook]assurer la transparence de la méthodologie. Souligne l’alignement de l’outil avec [gold standard] Lignes directrices, renforcement de la rigueur méthodologique. « 

Mais le plus gros drapeau rouge a été la différence entre les commentaires de la revue par les pairs et les commentaires du rédacteur en chef adjoint de la revue à laquelle j’avais soumis mon manuscrit. Lorsque les commentaires du rédacteur en chef adjoint étaient clairs, instructifs et utiles, les commentaires du réviseur par les pairs étaient vagues, déroutants et n’ont rien fait pour améliorer mon travail.

J’ai exprimé mes préoccupations directement au rédacteur en chef. À leur crédit, j’ai été immédiatement remercié d’avoir signalé les problèmes et d’avoir documenté mon enquête – ce qui, a-t-il dit, était « concernant et révélateur ».

Une surveillance minutieuse est nécessaire

Je n’ai pas de preuve définitive que l’examen par les pairs de mon manuscrit a été généré par l’AI. Mais les similitudes entre les commentaires laissés par le pair examinateur, et la sortie des modèles d’IA était frappante.

Les modèles d’IA rendent la recherche plus rapide, plus facile et plus accessible. Cependant, leur mise en œuvre en tant qu’outil pour aider à l’examen par les pairs nécessite une surveillance minutieuse, les conseils actuels sur l’utilisation de l’IA dans l’examen par les pairs sont mitigés et son efficacité.

Si les modèles d’IA doivent être utilisés dans l’examen par les pairs, les auteurs ont le droit d’être informés et de se retirer. Les examinateurs doivent également divulguer l’utilisation de l’IA dans leur examen. Cependant, l’application de cela reste un problème et doit tomber dans les revues et les éditeurs pour s’assurer que les pairs examinateurs qui utilisent les modèles d’IA sont inappropriés.

J’ai soumis mes recherches pour une revue « experte » par mes pairs dans le domaine, mais j’ai reçu des commentaires générés par l’IA qui n’ont finalement pas amélioré mon travail. Si j’avais accepté ces commentaires sans aucun doute – et si le rédacteur en chef adjoint n’avait pas fourni de commentaires exemplaires – il y a chaque occasion que cela aurait pu passer inaperçu.

Mon travail a peut-être été accepté pour publication sans être correctement examiné, diffusé dans le public comme «fait» corroboré par mes pairs, bien que mes pairs ne soient pas réellement passés en revue ce travail eux-mêmes.