Un nouvel outil détecte les faux articles scientifiques produits par l'IA
Lorsque ChatGPT et d’autres intelligences artificielles génératives peuvent produire des articles scientifiques qui semblent réels, en particulier pour une personne extérieure à ce domaine de recherche, quelle est la meilleure façon de déterminer lesquels sont faux ?
Ahmed Abdeen Hamed, chercheur invité au Thomas J. Watson College of Engineering and Applied Science de l'université de Binghamton, a créé un algorithme d'apprentissage automatique qu'il appelle xFakeSci et qui peut détecter jusqu'à 94 % des faux articles, soit près de deux fois plus de succès que les techniques d'exploration de données plus courantes.
« Mes recherches principales portent sur l'informatique biomédicale, mais comme je travaille avec des publications médicales, des essais cliniques, des ressources en ligne et des réseaux sociaux, je suis toujours préoccupé par l'authenticité des connaissances que quelqu'un propage », a déclaré Hamed, qui fait partie du laboratoire de systèmes adaptatifs complexes et d'intelligence computationnelle du professeur George J. Klir de science des systèmes Luis M. Rocha.
« Les articles biomédicaux en particulier ont été durement touchés pendant la pandémie mondiale parce que certaines personnes publiaient de fausses recherches. »
Dans un nouvel article publié dans la revue Rapports scientifiquesHamed et son collaborateur Xindong Wu, professeur à l'Université de technologie de Hefei en Chine, ont créé 50 faux articles sur chacun des trois sujets médicaux les plus populaires (la maladie d'Alzheimer, le cancer et la dépression) et les ont comparés au même nombre d'articles réels sur les mêmes sujets.
Hamed a déclaré lorsqu'il a demandé à ChatGPT les articles générés par l'IA : « J'ai essayé d'utiliser exactement les mêmes mots-clés que j'ai utilisés pour extraire la littérature du [National Institutes of Health’s] « J'ai utilisé la base de données PubMed pour avoir une base de comparaison commune. Mon intuition était qu'il devait y avoir un modèle dans le monde factice par rapport au monde réel, mais je n'avais aucune idée de ce que ce modèle était. »
Après quelques expérimentations, il a programmé xFakeSci pour analyser deux caractéristiques majeures associées à la manière dont les articles ont été rédigés. La première est le nombre de bigrammes, qui sont deux mots qui apparaissent fréquemment ensemble, comme « changement climatique », « essais cliniques » ou « littérature biomédicale ». La deuxième est la manière dont ces bigrammes sont liés à d'autres mots et concepts dans le texte.
« La première chose qui a frappé, c'est que le nombre de bigrammes était très faible dans le monde factice, mais dans le monde réel, les bigrammes étaient beaucoup plus riches », a déclaré Hamed. « De plus, dans le monde factice, malgré le fait qu'il y avait très peu de bigrammes, ils étaient très connectés à tout le reste. »
Hamed et Wu émettent l’hypothèse que les styles d’écriture sont différents parce que les chercheurs humains n’ont pas les mêmes objectifs que les IA invitées à produire un article sur un sujet donné.
« Comme ChatGPT est encore limité dans ses connaissances, il essaie de vous convaincre en utilisant les mots les plus significatifs », a déclaré Hamed. « Ce n’est pas le travail d’un scientifique de vous présenter un argument convaincant. Un véritable article de recherche rend compte honnêtement de ce qui s’est passé au cours d’une expérience et de la méthode utilisée. ChatGPT s’intéresse à la profondeur d’un seul point, alors que la vraie science s’intéresse à l’étendue. »
Le professeur distingué et président du département des sciences des systèmes et du génie industriel, Mohammad T. Khasawneh, a salué les recherches de Hamed.
« Nous sommes très heureux que le dernier ajout à notre solide liste de professeurs invités, le Dr Ahmed Abdeen Hamed, travaille sur des idées aussi novatrices », a-t-il déclaré. « À une époque où les « deepfakes » font désormais partie du débat public, son travail est incroyablement actuel et pertinent à de nombreux niveaux. Nous sommes enthousiasmés par les promesses de son travail et nous nous réjouissons de poursuivre nos collaborations avec lui. »
Pour développer davantage xFakeSci, Hamed prévoit d'élargir la gamme de sujets pour voir si les modèles de mots révélateurs s'appliquent à d'autres domaines de recherche, au-delà de la médecine pour inclure l'ingénierie, d'autres sujets scientifiques et les sciences humaines. Il prévoit également que les IA deviendront de plus en plus sophistiquées, ce qui rendra de plus en plus difficile de déterminer ce qui est réel ou non.
« Nous allons toujours devoir rattraper notre retard si nous ne concevons pas quelque chose de complet », a-t-il déclaré. « Nous avons beaucoup de travail devant nous pour trouver un modèle général ou un algorithme universel qui ne dépend pas de la version d'IA générative utilisée. »
Car même si leur algorithme détecte 94 % des articles générés par l'IA, a-t-il ajouté, cela signifie que 6 faux articles sur 100 parviennent à passer au travers : « Nous devons être humbles quant à ce que nous avons accompli. Nous avons fait quelque chose de très important en sensibilisant les gens. »