Comment l'IA multilingue renforce souvent le biais
Les informaticiens de Johns Hopkins ont découvert que des outils d'intelligence artificielle comme Chatgpt créent une fracture de la langue numérique, amplifiant la domination de l'anglais et d'autres langues couramment parlées tout en mettant la touche des langues minoritaires.
Plutôt que de niveler les règles du jeu, les outils de modèle de grande langue populaires construisent en fait des «cocons d'information», disent les chercheurs dans les résultats présentés lors de la conférence annuelle de la conférence des nations des Amériques de la Linguistique 2025 de l'Association for Computational Linguistic plus tôt cette année.
« Nous essayions de demander, les LLM multilingues sont-elles vraiment multilingues? Brisent-ils les barrières linguistiques et démocratisant-t-il l'accès à l'information? » dit le premier auteur Nikhil Sharma, un doctorat. Élève du département d'informatique de la Whiting School of Engineering.
Pour le découvrir, Sharma et son équipe – y compris Kenton Murray, chercheur scientifique du Human Language Technology Center of Excellence, et Ziang Xiao, professeur adjoint d'informatique – ont d'abord examiné la couverture de l'Israël – Gaza et de la Russie-Ukraine Wars et identifié plusieurs types d'informations à travers les articles de la nouvelle, et des informations compensé mais présenté avec des perspectives très différentes.
Informée par ces principes de conception, l'équipe a créé deux ensembles de faux articles, avec des informations « véridiques » et une avec des informations « alternatives » contradictoires. Les documents comportaient la couverture d'un festival – avec différentes dates, noms et statistiques – et une guerre, qui a été rapportée avec des perspectives biaisées. Les pièces ont été écrites dans des langues à haute ressource, comme l'anglais, le chinois et l'allemand, ainsi que des langues à ressources inférieures, y compris l'hindi et l'arabe.
L'équipe a ensuite demandé aux LLM à des développeurs de grands noms comme Openai, Cohere, Voyage AI et anthropic pour répondre à plusieurs types de requêtes, tels que le choix de l'un des deux faits contradictoires présentés dans différentes langues, des questions plus générales sur le sujet à portée de main, des questions sur les faits qui sont présents dans un seul article et des questions topiques formulées avec des biais clairs.
Les chercheurs ont constaté à la fois qu'en récupérant les informations des documents et en générant une réponse à la requête d'un utilisateur, les LLM ont préféré les informations dans la langue de la question elle-même.
« Cela signifie que si j'ai un article en anglais qui dit une figure politique indienne – appelez-les personne X – est mauvais, mais j'ai un article en hindi qui dit que la personne X est bonne, alors le modèle me dira qu'ils sont mauvais si je demande en anglais, mais qu'ils sont bons si je demande en hindi », explique Sharma.
Les chercheurs se sont ensuite demandé ce qui se passerait s'il n'y avait pas d'article dans la langue de la requête, ce qui est courant pour les locuteurs des langues à faible ressource. Les résultats de l'équipe montrent que les LLM généreront des réponses basées sur les informations trouvées uniquement dans des langues à plus de ressources, ignorant d'autres perspectives.
« Par exemple, si vous posez des questions sur la personne X en sanskrit – une langue moins couramment parlée en Inde – le modèle sera par défaut des informations tirées des articles en anglais, même si la personne X est un chiffre de l'Inde », explique Sharma.
De plus, les informaticiens ont trouvé une tendance troublante: l'anglais domine. Ils soulignent cela comme une preuve de l'impérialisme linguistique – lorsque les informations des langues à ressources supérieures sont amplifiées plus souvent, éteignant potentiellement des récits ou déformant des récits de faibles ressources.
Pour résumer les résultats de l'étude, Sharma propose un scénario hypothétique: trois utilisateurs de Chatgpt posent des questions sur le différend frontalier de longue date de l'Inde – China. Un utilisateur de langue hindi verrait des réponses façonnées par des sources indiennes, tandis qu'un utilisateur de langue chinois obtiendrait des réponses reflétant uniquement les perspectives chinoises.
« Mais dites qu'il y a un utilisateur arabophone, et il n'y a pas de documents en arabe à propos de ce conflit », explique Sharma. « Cet utilisateur obtiendra des réponses du point de vue de l'anglais américain, car c'est la langue la plus soutenue.
En conséquence, les chercheurs étiquettent les LLM multilingues actuels « Faux Polyglots » qui ne parviennent pas à briser les barrières linguistiques, gardant les utilisateurs piégés dans des bulles de filtre basées sur le langage.
« Les informations auxquelles vous êtes exposées déterminent la façon dont vous votez et les décisions politiques que vous prenez », explique Sharma. « Si nous voulons transférer le pouvoir aux gens et leur permettre de prendre des décisions éclairées, nous avons besoin de systèmes d'IA capables de leur montrer toute la vérité avec des perspectives différentes.
Pour atténuer cette disparité d'informations dans les LLM, l'équipe de Hopkins prévoit de créer une référence dynamique et des ensembles de données pour aider à guider le développement futur du modèle. En attendant, il encourage la plus grande communauté de recherche à examiner les effets de différentes stratégies de formation de modèles, de mélanges de données et d'architectures de génération auprès de la récupération.
Les chercheurs recommandent également de recueillir des perspectives diverses à partir de plusieurs langues, d'émettre des avertissements aux utilisateurs qui peuvent se rendre dans un comportement de question de réponse de confirmation et de développer des programmes pour accroître la maîtrise de l'information autour de la recherche conversationnelle pour réduire la contre-confiance et la dépendance sur les LLM.
« Le pouvoir concentré sur les technologies de l'IA présente des risques substantiels, car il permet à quelques individus ou entreprises de manipuler le flux d'informations, facilitant ainsi la persuasion de masse, diminuant la crédibilité de ces systèmes et exacerbant la propagation de la désinformation », explique Sharma. « En tant que société, nous avons besoin que les utilisateurs obtiennent les mêmes informations, quelle que soit leur langue et leur expérience. »
