Un modèle d'apprentissage multitâche améliore l'identification des discours de haine

Les chercheurs ont développé une nouvelle façon de détecter automatiquement les discours de haine sur les plateformes de médias sociaux avec plus de précision et de cohérence en utilisant un nouveau modèle d'apprentissage multitâche (MTL) ; un type de modèle d'apprentissage automatique qui fonctionne sur plusieurs ensembles de données.

La propagation de discours de haine abusifs en ligne peut aggraver les divisions politiques, marginaliser les groupes vulnérables, affaiblir la démocratie et déclencher des préjudices réels, notamment un risque accru de terrorisme intérieur.

Le professeur agrégé Marian-Andrei Rizoiu, responsable du laboratoire de science des données comportementales à l'Université de technologie de Sydney (UTS), travaille en première ligne dans la lutte contre la désinformation et les discours de haine en ligne. Ses recherches interdisciplinaires combinent l'informatique et les sciences sociales pour mieux comprendre et prédire l'attention humaine dans l'environnement en ligne, y compris les types de discours qui influencent et polarisent l'opinion sur les canaux numériques.

« Alors que les médias sociaux deviennent une partie importante de notre vie quotidienne, l'identification automatique des contenus haineux et abusifs est essentielle pour lutter contre la propagation des contenus préjudiciables et prévenir leurs effets néfastes », a déclaré le professeur agrégé Rizoiu.

« Concevoir une détection automatique efficace des discours de haine constitue un défi de taille. Les modèles actuels ne sont pas très efficaces pour identifier tous les différents types de discours de haine, notamment le racisme, le sexisme, le harcèlement, l'incitation à la violence et l'extrémisme.

« En effet, les modèles actuels sont formés sur une seule partie d'un ensemble de données et testés sur le même ensemble de données. Cela signifie que lorsqu'ils sont confrontés à des données nouvelles ou différentes, ils peuvent avoir des difficultés et ne pas fonctionner de manière cohérente. »

Le professeur agrégé Rizoiu présente le nouveau modèle dans l'article « Généraliser la détection des discours de haine à l'aide de l'apprentissage multi-tâches : une étude de cas de personnalités publiques politiques », publié dans Parole et langage informatiqueavec co-auteur et doctorat UTS. candidat Lanqin Yuan.

Un modèle d'apprentissage multitâche est capable d'effectuer plusieurs tâches en même temps et de partager des informations entre des ensembles de données. Dans ce cas, il a été formé sur huit ensembles de données sur les discours de haine provenant de plateformes telles que Twitter (maintenant X), Reddit, Gab et le forum néo-nazi Stormfront.

Le modèle MTL a ensuite été testé sur un ensemble de données unique de 300 000 tweets provenant de 15 personnalités publiques américaines, telles que d’anciens présidents, des politiciens conservateurs, des théoriciens du complot d’extrême droite, des experts des médias et des représentants de gauche perçus comme très progressistes.

L’analyse a révélé que les tweets abusifs et haineux, souvent caractérisés par la misogynie et l’islamophobie, proviennent principalement d’individus de droite. Plus précisément, sur 5 299 messages abusifs, 5 093 ont été générés par des personnalités de droite.

« Le discours de haine n'est pas un concept facilement quantifiable. Il s'inscrit dans un continuum de discours offensants et d'autres contenus abusifs tels que l'intimidation et le harcèlement », a déclaré Rizoiu.

Les Nations Unies définissent le discours de haine comme « toute forme de communication verbale, écrite ou comportementale, qui attaque ou utilise un langage péjoratif ou discriminatoire à l'égard d'une personne ou d'un groupe en fonction de son identité », y compris sa religion, sa race, son sexe ou toute autre identité. facteur.

Le modèle MTL a réussi à distinguer les discours abusifs des discours haineux et à identifier des sujets particuliers, notamment l’islam, les femmes, l’origine ethnique et les immigrants.