Comment l’IA peut aider les journalistes à trouver des sources diverses et originales

Que seraient les reportages sans sources appropriées ? Pour raconter une histoire captivante, les journalistes doivent trouver des récits dignes d’intérêt et des informations fiables. Ces informations proviennent généralement d’un large éventail de publications, de documents officiels et d’experts, chacun ayant ses propres préjugés, expertise, opinions et antécédents. Le bassin de candidats aux entretiens est nombreux, mais il est difficile de s’y retrouver.

L’intelligence artificielle peut cependant servir de guide.

Des chercheurs de l’Institut des sciences de l’information de l’USC créent un moteur de recommandation de sources conçu pour suggérer des références aux journalistes. « En pratique, le logiciel analyserait un texte ou un sujet donné et suggérerait des sources pertinentes en les recoupant avec une base de données d’interviewés potentiels, d’experts ou de ressources d’information », a déclaré Emilio Ferrara, professeur d’informatique et de communication à l’USC Viterbi. École d’ingénieurs. « L’outil pourrait fournir les coordonnées, les domaines d’expertise et les travaux antérieurs des sources », a-t-il ajouté.

Le développement de l’outil est dirigé par Alexander Spangher, titulaire d’un doctorat en informatique. étudiant à l’USC Viterbi qui travaillait auparavant comme data scientist au New York Times. Alors qu’il était immergé dans l’industrie du journalisme, Spangher a été témoin de la pression des salles de rédaction traditionnelles. « Je n’ai pas parlé à un seul journaliste local qui ne soit pas totalement débordé », a-t-il fait remarquer. « Il y a eu des déserts d’information et des journaux qui ont fermé leurs portes. C’est dans des domaines comme celui-ci que nous voulons vraiment aider et créer des outils pour lesquels. »

Motivé à fournir des ressources utiles aux journalistes, Spangher crée divers gadgets d’IA, notamment un système de recommandation de sources préfacé dans son article « Identifier les sources d’informations dans les articles d’actualité », qui a été accepté à la conférence 2023 sur les méthodes empiriques dans le traitement du langage naturel et est maintenant affiché sur le arXiv serveur de préimpression.

Pour créer un modèle d’IA capable de suggérer des sources, les chercheurs ont d’abord posé les bases : comment les journalistes humains utilisent-ils actuellement les sources pour rédiger des informations ? Pour étudier cela, ils ont rassemblé un ensemble de données de phrases provenant de plus d’un millier d’articles de presse et ont annoté la source de l’information, ainsi que la catégorie de source (par exemple, « citations directes », « citations indirectes », « ouvrages publiés » et « tribunaux »). procédure »).

Un millier d’articles de presse annotés ne suffisaient cependant pas aux chercheurs pour tirer des conclusions définitives sur la myriade de façons dont les journalistes utilisent les sources dans tous les genres de reportage. Mais il suffisait de former un modèle de langage (LM) pour poursuivre le processus d’annotation. « Les modèles linguistiques sont des cadres d’IA qui traitent et comprennent le langage humain en analysant de grands volumes de texte pour en rechercher les modèles et le contexte », a expliqué Ferrara, auteur principal de l’article.

Les LM formés par les chercheurs pouvaient détecter les attributions de sources avec une précision de 83 %, ont révélé les auteurs. Désormais équipés de ces LM, ils ont annoté environ 10 000 articles de presse et ont approfondi leur compréhension de la composition de la rédaction de l’information : quand et comment les journalistes utilisent-ils actuellement les sources ?

Les modèles d’IA ont révélé qu’en moyenne, environ la moitié des informations contenues dans les articles de presse provenaient de sources et que, dans chaque article, il existe généralement une ou deux sources principales (c’est-à-dire que celles-ci contribuent à 20 % ou plus des informations contenues dans l’article) et deux à huit mineurs (ceux qui contribuent le moins). « L’IA a également découvert que les première et dernière phrases étaient les plus susceptibles d’être sourcées », a expliqué Spangher, ajoutant que les journalistes commencent souvent par des informations citées et terminent par une citation pour dissuader le lecteur.

Les chercheurs ont testé leur nouvel algorithme avec un test supplémentaire : pourraient-ils détecter si une source manquait ? Si l’IA peut reconnaître quand des informations manquent, elle peut alors être configurée pour savoir quand recommander un expert particulier pour compléter le tableau complet.

En analysant 40 000 articles dont certaines sources ont été supprimées au hasard, les modèles d’IA ont facilement remarqué l’absence d’une source majeure mais ont eu des difficultés avec les sources mineures. Bien qu’elles soient peut-être les moins cruciales pour une histoire, les sources moins évidentes peuvent également constituer les recommandations les plus précieuses qu’une IA pourrait un jour faire, a déclaré Spangher.

« Vous allez tirer beaucoup d’informations des principaux participants, mais des voix supplémentaires vont donner plus de couleur et de détails à l’article », a-t-il noté. « Ce sera un défi de faire en sorte que le moteur reconnaisse et recommande des sources mineures, mais ce sont peut-être les plus utiles. »

Les chercheurs pensent également que l’outil sera important s’il peut recommander des sources de manière diversifiée. « Cela peut présenter aux journalistes des voix nouvelles et diversifiées au-delà de leur réseau habituel, réduisant ainsi le recours à des sources familières et apportant potentiellement de nouvelles perspectives », a déclaré Ferrara.

Cependant, tout système d’IA est sujet à des biais s’il n’est pas correctement conçu, a-t-il ajouté. « Pour garantir la diversité des bases de données sources, les normes devraient inclure une représentation d’un large éventail de données démographiques, de disciplines et de perspectives », a-t-il noté.

Jonathan May, professeur agrégé de recherche en informatique à l’USC Viterbi et chercheur principal à l’ISI, imagine un avenir dans lequel le moteur de sourcing relancerait le processus de reportage, permettant aux journalistes d’être plus efficaces.

« La technologie qui peut nous aider à faire un travail créatif et à donner le meilleur de nous-mêmes est une bonne chose », a déclaré May, co-auteur de l’article. « C’est pourquoi j’ai bon espoir. »

L’équipe prévoit de collaborer avec des journalistes pour recueillir des commentaires en vue d’améliorations supplémentaires.

« Avec des projets comme celui-ci, j’aime vraiment parler aux journalistes et comprendre leurs besoins, leurs points de vue et ce qui, selon eux, fonctionnera ou non », a déclaré Spangher. « Toute solution au journalisme local nécessitera la réunion d’un groupe de personnes différentes avec des horizons très différents. »