IA et recherche scientifique : le risque des « articles rétractés » guette les chatbots
Certains chatbots IA s’appuient sur des articles scientifiques rétractés sans en informer les utilisateurs. Des recherches menées par des universités américaines et confirmées par Revue technologique du MIT ont montré que ChatGPT, Elicit, Consensus et d'autres outils citent des articles qui ne sont plus valides comme s'ils étaient fiables, signalant rarement des rétractations. Les conséquences sont graves : le public peut recevoir des conseils médicaux ou des informations scientifiques trompeurs, tandis que les étudiants et les chercheurs risquent de fonder leurs analyses sur des fondations corrompues. Le problème vient d'une combinaison de facteurs : le manque de bases de données complètes et mises à jour sur les rétractations, l'absence de normes univoques de la part des éditeurs et l'utilisation de données de formation obsolètes.
Quelqu'un a déjà agi
Certaines entreprises agissent en intégrant des sources telles que Montre de rétraction ou OpenAlex. Retraction Watch est un projet journalistique qui surveille les articles scientifiques retirés des revues universitaires, en maintenant une base de données mise à jour avec les raisons des rétractations. Il est considéré comme une référence internationale pour vérifier la fiabilité des publications.

OpenAlex est un catalogue ouvert de littérature scientifique qui collecte des métadonnées sur les articles, les auteurs, les revues et les citations. Parmi les informations disponibles, on trouve également des rapports d'articles retirés, accessibles via API et utilisés par divers outils de recherche et IA. Pour les experts, il est essentiel que les modèles d’IA soient alimentés par davantage de contexte : notes de rétractation, évaluations par les pairs, critiques académiques et avis publiés en dehors des paywalls. Sans ces mesures, les risques de désinformation restent élevés.
Comme le souligne Aaron Tay de la Singapore Management University, nous n’en sommes qu’au début et nous devons maintenir une approche sceptique : le vérifications nécessaires Cela dépend à la fois des développeurs et des utilisateurs.
L'étude sur ChatGPT
Une équipe dirigée par Weikuan Gu, chercheur en médecine à l'Université du Tennessee, a interrogé ChatGPT sur la base du modèle GPT-4o avec des questions tirées de 21 articles scientifiques rétractés sur l'imagerie médicale. Dans cinq cas, le chatbot a cité des articles rétractés, mais seulement dans trois cas il a appelé à la prudence. Dans d’autres cas, il a utilisé des articles non rétractés, mais sans indiquer quand un texte avait effectivement été retiré de la littérature scientifique. Une autre étude d'août a analysé 217 articles rétractés ou de mauvaise qualité dans différents domaines, en interrogeant GPT-4o mini, aucune réponse n'a mentionné la rétractation.
Il n'existe actuellement aucune étude similaire publiée sur le nouveau GPT-5, ce qui soulève d'autres questions sur la capacité des modèles de nouvelle génération à faire la distinction de manière fiable entre les recherches valides et corrompues.
Cette incertitude ne se limite pas à l’utilisation académique, elle s’étend à des domaines tels que les soins de santé, l’industrie pharmaceutique et les politiques publiques, où fonder des décisions sur des preuves erronées peut avoir des conséquences importantes.
Les réponses des autres instruments
Le problème ne vient pas seulement de ChatGPT. Revue technologique du MIT testé plusieurs outils d’IA pour la recherche et les résultats étaient tout aussi préoccupants. Elicit a cité cinq articles rétractés, Ai2 ScholarQA 17, Perplexity 11 et Consensus 18, sans en aucun cas qu'il soit signalé que ces articles avaient été rétractés. Ce n'est que récemment que certaines entreprises ont commencé à intégrer les données de rétractation pour limiter le problème.
Consensus, par exemple, utilise aujourd'hui les informations provenant d'éditeurs, d'agrégateurs de données, d'analyses indépendantes et de la base de données manuelle de Montre de rétraction. Elicit s'appuie sur OpenAlex, tandis qu'Ai2 a admis que son outil ne détecte pas automatiquement les éléments rappelés.
Finalement, Perplexity a déclaré que «Ne prétendez pas être précis à 100%.».
Les difficultés des rétractations
Selon Ivan Oransky, co-fondateur de Montre de rétractionil n’existe pas encore de base de données complète et définitive, la collecte d’informations sur les rétractations est un travail manuel et coûteux. Le manque de normes complique la situation : les labels utilisés par les éditeurs varient de « retiré » à « errata», « expression de préoccupation » ou « correction », et peut être appliquée pour différentes raisons (contenu, méthodologie, données, conflits d’intérêts).
De plus, les articles distribués sur les serveurs et référentiels de prépublication risquent de se multiplier en ligne même après le retrait officiel. Si un article est retiré après la date limite de formation, les modèles d’IA peuvent continuer à le considérer comme valide.
Solutions possibles
Les experts demandent instamment de fournir plus de contexte dans les données de formation et les systèmes de recherche, les évaluations par les pairs, les critiques PubPeer, les avis officiels des éditeurs et les articles de presse mentionnant des rétractations.
Certains éditeurs aiment Nature Et BMJ ils publient déjà des avis en dehors des murs payants, mais les entreprises doivent intégrer efficacement ces sources et les gouvernements, les institutions scientifiques et les communautés universitaires établissent des règles communes pour l'utilisation de ces informations.
Seul un engagement coordonné entre public et privé peut garantir que les modèles d’IA ne deviennent pas des véhicules de désinformation mais des outils fiables pour la recherche et pour la définition de politiques fondées sur des preuves solides.
Conclusions
La question des rétractations met en lumière une profonde fragilité des systèmes actuels d’intelligence artificielle appliqués à la recherche scientifique. La capacité des modèles à générer des réponses fluides et convaincantes ne garantit pas que les contenus soient fiables, surtout si à la base se trouvent des articles retirés ou des articles de qualité douteuse.
Le risque n’est pas seulement académique : les avis médicaux, les décisions politiques ou les investissements dans la recherche pourraient être fondés sur des informations incorrectes.
Pour cette raison, construire des outils plus robustes et transparents devient une priorité tant pour les entreprises technologiques que pour le monde scientifique. Des bases de données plus complètes, des procédures de reporting uniformes et une plus grande implication des communautés universitaires sont des étapes clés pour réduire les risques.
En attendant des solutions matures, l’invitation à la prudence reste valable, à utiliser les chatbots comme support, non comme source unique, et à conserver une approche critique.
Ce n’est qu’ainsi que l’IA pourra véritablement devenir une alliée de la science et non un facteur de confusion.
