Une étude révèle des biais dans les modèles de langage à l'encontre des utilisateurs non binaires
Que se passe-t-il lorsque la technologie censée protéger les voix marginalisées finit par les faire taire ? Rebecca Dorn, assistante de recherche à l'Institut des sciences de l'information (ISI) de l'USC Viterbi, a découvert comment les grands modèles linguistiques (LLM) utilisés pour modérer le contenu en ligne échouent aux communautés queer en interprétant mal leur langage.
Visibilité non binaire et biais algorithmique
Dans l'article « Expression de genre non binaire dans les interactions en ligne », Dorn, qui est doctorant en quatrième année. Un étudiant en informatique à l'USC Viterbi School of Engineering a examiné les utilisateurs non binaires sur les plateformes de médias sociaux comme X (anciennement Twitter) et a constaté qu'ils recevaient souvent moins d'engagement, comme des likes ou des abonnés, que leurs homologues binaires. De plus, leurs publications sont fréquemment signalées comme étant plus toxiques par les algorithmes de modération de contenu, même lorsqu'elles ne contiennent aucun contenu nuisible.
Dorn a présenté ces résultats virtuellement lors de la 16e Conférence internationale sur les avancées dans l'analyse et l'exploitation des réseaux sociaux (ASONAM 2024), qui s'est tenue en Calabre, en Italie, du 2 au 5 septembre 2024.
La recherche a révélé que les utilisateurs non binaires ont tendance à être moins actifs sur des plateformes comme X, potentiellement en raison de leur sous-représentation dans les données des réseaux sociaux, et que les utilisateurs non binaires reçoivent moins de likes, de retweets et de followers que les utilisateurs binaires. Ce manque de visibilité est alarmant, car il peut conduire à marginaliser les voix non binaires dans les conversations importantes, limitant ainsi leur influence sociale et entravant leur capacité à défendre des questions importantes pour leur communauté.
Les recherches de Dorn ont également révélé une tendance troublante : les tweets provenant d'utilisateurs non binaires sont plus susceptibles d'être classés à tort comme toxiques. Dorn a déclaré: « Nous avons constaté que moins un groupe de genre était représenté, plus les scores de toxicité de leurs tweets étaient élevés. »
Les chercheurs avancent que cela est probablement le résultat d’un biais dans les algorithmes, qui interprètent à tort le langage couramment utilisé dans les communautés queer comme nuisible. Cela concorde avec les preuves antérieures montrant que le contenu des médias sociaux provenant de groupes de genre différent, tels que les drag queens, est signalé de manière disproportionnée comme discours de haine, soulignant encore davantage la nécessité de systèmes de modération de contenu plus nuancés et plus équitables.
C'est cette découverte qui a conduit à son article de suivi, « La détection de la parole nuisible par des modèles linguistiques présente un biais de dialecte genre-queer ». Les résultats sont publiés sur le arXiv serveur de préimpression.
Le problème des insultes récupérées
Dans ce deuxième article, Dorn et son co-auteur Lee Kezar, également titulaire d'un doctorat. étudiant en informatique à l'USC Viterbi, a exploré comment les LLM qualifient régulièrement à tort les discours non binaires et queer, en particulier l'utilisation d'insultes récupérées, comme nuisibles. Les insultes récupérées, autrefois utilisées comme insultes, ont été réutilisées par la communauté LGBTQ+ comme symboles de fierté et d'autonomisation.
Cependant, les systèmes de modération de contenu basés sur l’IA ne parviennent pas à saisir ces nuances, confondant souvent le langage responsabilisant avec du contenu offensant et faisant taire les voix de ceux qu’ils visent à protéger.
« Nous avons constaté que les modèles existants ont tendance à signaler ces termes, même lorsqu'ils ne sont pas utilisés de manière nuisible. C'est frustrant car cela signifie que ces systèmes renforcent la marginalisation de ces communautés », a expliqué Dorn.
« Les personnes queer utilisent souvent des insultes récupérées de manière affirmative et positive, mais les modèles ne sont pas capables de détecter ce contexte. C'est un problème lorsque ces mêmes modèles sont utilisés pour modérer des plateformes où les voix queer sont déjà marginalisées. »
Pour étudier ce problème, Dorn et Kezar ont créé QueerReclaimLex, un ensemble de données d'utilisations non désobligeantes d'insultes LGBTQ+, annotées par des individus de genre queer. Ils ont testé cinq modèles linguistiques populaires, révélant que ces systèmes étaient souvent incapables de discerner le contexte positif ou neutre de ces termes lorsqu'ils étaient utilisés par les personnes mêmes qu'ils sont censés représenter.
Dans tous les modèles testés, les systèmes ont eu le plus de difficultés à identifier les insultes récupérées utilisées de manière positive ou neutre par les personnes queer. Dans certains cas, les modèles avaient raison dans moins de 24 % des cas, ce qui montre à quel point ils comprenaient mal le contexte de ces mots.
Quelle est la prochaine étape ?
Le travail de Dorn met en évidence un problème critique dans la modération de contenu basée sur l'IA : bien que ces systèmes soient conçus pour protéger les utilisateurs contre les discours nuisibles, ils interprètent souvent mal le langage des communautés historiquement marginalisées, en particulier des individus queer et non binaires. Alors que ces modèles continuent de façonner les espaces numériques où ces communautés se rassemblent pour se soutenir et s’exprimer, il est essentiel de lutter contre ces préjugés.
Kristina Lerman, scientifique principale principale de l'ISI, professeure de recherche au département d'informatique Thomas Lord de l'USC Viterbi School of Engineering et co-auteur des deux articles, a souligné l'importance de cette recherche : « Ce travail nous rappelle, en tant que chercheurs, que nous ne pouvons pas Nous faisons aveuglément confiance aux résultats de nos modèles d’IA. Les observations que nous faisons sur le monde – dans ce cas, les discours en ligne dans les communautés homosexuelles – peuvent ne pas refléter fidèlement la réalité. »