Les chercheurs trouvent des failles dans l'utilisation de la réputation des sources pour former des algorithmes de détection automatique de désinformation

Crédit : Pixabay/CC0 Domaine public

Des chercheurs de l’Université Rutgers ont découvert une faille majeure dans la manière dont les algorithmes conçus pour détecter les « fausses nouvelles » évaluent la crédibilité des reportages en ligne.

La plupart de ces algorithmes reposent sur un score de crédibilité pour la « source » de l’article, plutôt que sur l’évaluation de la crédibilité de chaque article individuel, ont déclaré les chercheurs.

« Ce n’est pas le cas que tous les articles de presse publiés par des sources étiquetées » crédibles » (par exemple, le New York Times) soient exacts, et il n’est pas non plus vrai que chaque article publié par des sources étiquetées de publications « non crédibles » soit de « fake news ». », a déclaré Vivek K. Singh, professeur agrégé à la Rutgers School of Communication and Information et co-auteur de l’étude « Misinformation Detection Algorithms and Fairness Across Political Ideologies: The Impact of Article Level Labeling », publiée sur OSFHome.

« Notre analyse montre que l’étiquetage des articles pour désinformation en fonction de la source est une aussi mauvaise idée que de simplement lancer une pièce de monnaie et d’attribuer des étiquettes vrai/faux aux reportages », a ajouté Lauren Feldman, professeure agrégée de journalisme et d’études médiatiques à l’École de Communication and Information, qui est un autre co-auteur de l’article.

Les chercheurs ont découvert que l’utilisation d’étiquettes au niveau de la source pour la crédibilité n’est pas une méthode fiable, les étiquettes au niveau de l’article correspondant 51 % du temps. Ce processus d’étiquetage a des implications importantes pour des tâches telles que la création de détecteurs de fausses nouvelles robustes et pour les audits sur l’équité dans l’ensemble du spectre politique.

Pour résoudre ce problème, l’étude propose un nouvel ensemble de données d’articles étiquetés individuellement de qualité journalistique et une approche pour la détection de la désinformation et les audits d’équité. Les résultats de cette étude soulignent la nécessité de méthodes plus nuancées et fiables pour détecter la désinformation dans les actualités en ligne et fournissent des ressources précieuses pour les recherches futures dans ce domaine.

Les chercheurs ont évalué la crédibilité et l’orientation politique de 1 000 articles de presse et ont utilisé ces étiquettes au niveau de l’article pour créer des algorithmes de détection de désinformation. Ensuite, ils ont évalué l’impact de la méthodologie d’étiquetage (au niveau de la source par rapport au niveau de l’article) sur les performances des algorithmes de détection de désinformation.

Leur objectif était d’explorer l’impact de l’étiquetage au niveau de l’article sur le processus et de déterminer si le biais qui existe lors de l’application de l’approche d’apprentissage automatique au niveau de la source existe toujours lors de l’application de la même approche d’apprentissage automatique à des articles individuels, et en plus, pour savoir si le biais est réduit lorsqu’il s’agit d’articles étiquetés individuellement.

Les auteurs ont présenté leur article lors de la 15e Conférence scientifique Web 2023 de l’Association for Computing Machinery, qui s’est tenue du 30 avril au 1er mai à Austin, au Texas.

Un effort conjoint entre des professionnels du journalisme, des sciences de l’information et de l’informatique, les auteurs, en plus de Singh et Feldman, incluent Jinkyung Park, un Ph.D. ancienne élève de l’École de communication et d’information; Rahul Dev Ellezhuthil, étudiant en master informatique ; Joseph Isaac, doctorant à l’École de communication et d’information; et Christoph Mergerson, titulaire d’un doctorat. ancien élève de l’École de communication et d’information et professeur adjoint de race et de médias à l’Université du Maryland.

Les auteurs ont déclaré que les algorithmes utilisés pour détecter la désinformation dans les articles en ligne fonctionnent comme ils le font « principalement parce qu’il y a un manque d’étiquettes à grain fin définies au niveau de l’article de presse. Nous reconnaissons que l’étiquetage de chaque article de presse peut ne pas être faisable compte tenu du volume massif d’articles de presse qui sont publiés et diffusés sur le Web. En même temps, il y a des raisons de remettre en question la validité des ensembles de données étiquetés au niveau de la source.

« Valider les informations en ligne et empêcher la propagation de la désinformation est essentiel pour garantir des environnements en ligne fiables et protéger la démocratie », ont écrit les auteurs, ajoutant que leur travail « vise à accroître la confiance du public dans les pratiques de détection de la désinformation et les corrections ultérieures en garantissant la validité et l’équité de résultats », et leur ensemble de données et les résultats conceptuels « visent à ouvrir la voie à des algorithmes de détection de désinformation plus fiables et plus équitables ».