Évaluer la capacité de ChatGPT et d'autres grands modèles de langage à détecter les fausses nouvelles

Évaluer la capacité de ChatGPT et d’autres grands modèles de langage à détecter les fausses nouvelles

Graphique résumant les résultats de l’étude Crédit : Kevin Matthe Caramancion

Les grands modèles de langage (LLM) sont une évolution des techniques de traitement du langage naturel (PNL) qui peuvent rapidement générer des textes ressemblant étroitement à ceux écrits par les humains et effectuer d’autres tâches simples liées au langage. Ces modèles sont devenus de plus en plus populaires après la sortie publique de Chat GPT, un LLM très performant développé par OpenAI.

Des études récentes évaluant les LLM ont jusqu’à présent principalement testé leur capacité à créer des textes bien écrits, à définir des termes spécifiques, à rédiger des essais ou d’autres documents et à produire un code informatique efficace. Néanmoins, ces modèles pourraient potentiellement aider les humains à résoudre divers autres problèmes du monde réel, notamment les fausses nouvelles et la désinformation.

Kevin Matthe Caramancion, chercheur à l’Université du Wisconsin-Stout, a récemment mené une étude évaluant la capacité des LLM les plus connus publiés à ce jour à détecter si une nouvelle est vraie ou fausse. Ses conclusions, dans un article sur le serveur de préimpression arXivoffre des informations précieuses qui pourraient contribuer à l’utilisation future de ces modèles sophistiqués pour lutter contre la désinformation en ligne.

« L’inspiration pour mon récent article est venue de la nécessité de comprendre les capacités et les limites de divers LLM dans la lutte contre la désinformation », a déclaré Caramancion à Tech Xplore. « Mon objectif était de tester rigoureusement la capacité de ces modèles à distinguer les faits de la fabrication, en utilisant une simulation contrôlée et des agences de vérification des faits établies comme référence. »

« Nous avons évalué les performances de ces grands modèles de langage à l’aide d’une suite de tests de 100 articles d’actualité vérifiés par des agences indépendantes de vérification des faits », a déclaré Caramancion. « Nous avons présenté chacune de ces informations aux modèles dans des conditions contrôlées, puis avons classé leurs réponses dans l’une des trois catégories : vrai, faux et partiellement vrai/faux. L’efficacité des modèles a été mesurée en fonction de la précision avec laquelle ils ont classé ces éléments. par rapport aux faits vérifiés fournis par les agences indépendantes. »

La désinformation est devenue un défi crucial au cours des dernières décennies, car Internet et les médias sociaux ont permis la diffusion de plus en plus rapide d’informations, qu’elles soient vraies ou fausses. De nombreux informaticiens ont donc tenté de concevoir de meilleurs outils et plateformes de vérification des faits permettant aux utilisateurs de vérifier les informations qu’ils lisent en ligne.

Malgré les nombreux outils de vérification des faits créés et testés à ce jour, un modèle largement adopté et fiable pour lutter contre la désinformation fait toujours défaut. Dans le cadre de son étude, Caramacion a cherché à déterminer si les LLM existants pouvaient efficacement s’attaquer à ce problème mondial.

Il a spécifiquement évalué les performances de quatre LLM, à savoir Chat GPT-3.0 et Chat GPT-4.0 d’Open AI, Bard/LaMDA de Google et Bing AI de Microsoft. Caramancion a alimenté ces modèles avec les mêmes reportages, qui étaient auparavant vérifiés, puis a comparé leur capacité à déterminer s’ils étaient vrais, faux ou partiellement vrais/faux.

« Nous avons effectué une évaluation comparative des principaux LLM dans leur capacité à différencier les faits de la tromperie », a déclaré Caramancion. « Nous avons constaté que le GPT-4.0 d’OpenAI surpassait les autres, faisant allusion aux progrès des nouveaux LLM. Cependant, tous les modèles étaient à la traîne par rapport aux vérificateurs de faits humains, soulignant la valeur irremplaçable de la cognition humaine. Ces résultats pourraient conduire à une concentration accrue sur le développement des capacités de l’IA dans le domaine de la vérification des faits tout en assurant une intégration équilibrée et symbiotique avec les compétences humaines. »

L’évaluation réalisée par Caramancion a montré que ChatGPT 4.0 surpasse de manière significative les autres LLM de premier plan sur les tâches de vérification des faits. D’autres études testant les LLM sur un ensemble plus large de fausses nouvelles pourraient aider à vérifier cette conclusion.

Le chercheur a également constaté que les vérificateurs de faits humains surpassent toujours tous les principaux LLM qu’il a évalués. Ses travaux mettent en évidence la nécessité d’améliorer encore ces modèles ou de les combiner avec le travail d’agents humains s’ils doivent être appliqués à la vérification des faits.

« Mes futurs plans de recherche tournent autour de l’étude de la progression des capacités de l’IA, en se concentrant sur la façon dont nous pouvons tirer parti de ces avancées sans négliger les capacités cognitives uniques des humains », a ajouté Caramancion. « Nous visons à affiner nos protocoles de test, à explorer de nouveaux LLM et à approfondir la dynamique entre la cognition humaine et la technologie de l’IA dans le domaine de la vérification des faits. »