Une équipe développe un outil basé sur l'IA pour détecter les discours de haine dans les langues d'Asie du Sud-Est
Internet, et en particulier les réseaux sociaux, ont connu une croissance exponentielle au cours des dernières décennies. La nature des réseaux sociaux permet à tout un chacun d’aller en ligne et de créer du contenu qu’il trouve intéressant, qu’il soit approprié ou non. Une forme de contenu inapproprié est le discours de haine, c’est-à-dire un discours offensant ou menaçant visant certaines personnes en raison de leur appartenance ethnique, de leur religion, de leur orientation sexuelle, etc.
Les modèles de détection de discours haineux sont des systèmes informatiques capables d’identifier et de classer les commentaires en ligne comme des discours haineux.
« Ces modèles sont essentiels pour modérer le contenu en ligne et limiter la propagation de discours préjudiciables, en particulier sur les réseaux sociaux », a déclaré Roy Lee, professeur adjoint de l'Université de technologie et de design de Singapour (SUTD). Il est important d'évaluer les performances des modèles de détection des discours de haine, mais l'évaluation traditionnelle à l'aide d'ensembles de tests provisoires ne parvient souvent pas à évaluer correctement les performances du modèle en raison de biais inhérents aux ensembles de données.
Pour surmonter cette limitation, HateCheck et Multilingual HateCheck (MHC) ont été introduits comme des tests fonctionnels qui capturent la complexité et la diversité des discours de haine en simulant des scénarios du monde réel. Dans leur article de recherche intitulé « SGHateCheck : tests fonctionnels pour détecter les discours de haine dans les langues à faibles ressources de Singapour », le professeur adjoint Lee et son équipe s'appuient sur les cadres de HateCheck et de MHC pour développer SGHateCheck, un outil basé sur l'intelligence artificielle (IA) qui peut faire la distinction entre les commentaires haineux et non haineux dans le contexte spécifique de Singapour et de l'Asie du Sud-Est.
L'œuvre apparaît dans le Actes du 8e atelier sur les abus et les préjudices en ligne (WOAH 2024).
Il était nécessaire de créer un outil d'évaluation spécifiquement adapté au contexte linguistique et culturel de la région. En effet, les modèles et ensembles de données actuels de détection des discours de haine sont principalement basés sur des contextes occidentaux, qui ne représentent pas avec précision les dynamiques et les problèmes sociaux spécifiques à l'Asie du Sud-Est.
« SGHateCheck vise à combler ces lacunes en fournissant des tests fonctionnels adaptés aux besoins spécifiques de la région, garantissant une détection plus précise et culturellement sensible des discours de haine », a déclaré le professeur adjoint Lee.
Contrairement à HateCheck et MHC, SGHateCheck utilise des modèles linguistiques de grande taille (LLM) pour traduire et paraphraser les cas de test dans les quatre principales langues de Singapour : l'anglais, le mandarin, le tamoul et le malais. Des annotateurs natifs affinent ensuite ces cas de test pour garantir la pertinence et l'exactitude culturelles. Le résultat final est plus de 11 000 cas de test minutieusement annotés comme haineux ou non haineux, ce qui permet une plateforme plus nuancée pour évaluer les modèles de détection des discours de haine.
De plus, même si MHC inclut de nombreuses langues, il n'a pas le même niveau de spécificité régionale que SGHateCheck. Une liste complète de tests fonctionnels adaptés aux caractéristiques linguistiques spécifiques de la région (par exemple, le singlish) associée à des conseils d'experts garantit que les tests SGHateCheck sont utiles et pertinents.
« Cette approche régionale permet à SGHateCheck de saisir et d'évaluer plus précisément les manifestations de discours de haine qui ne peuvent pas être traitées de manière adéquate par des cadres plus larges et plus généraux », a souligné le professeur adjoint Lee.
L’équipe a également constaté que les LLM formés sur des ensembles de données monolingues sont souvent orientés vers des classifications non haineuses. En revanche, les LLM formés sur des ensembles de données multilingues ont des performances plus équilibrées et peuvent détecter plus précisément les discours de haine dans différentes langues en raison de leur exposition à un éventail plus large d’expressions linguistiques et de contextes culturels. Cela souligne l’importance d’inclure des données de formation culturellement diverses et multilingues pour les applications dans les régions multilingues.
SGHateCheck a été spécialement développé pour résoudre un problème réel en Asie du Sud-Est. Il est sur le point de jouer un rôle important en améliorant la détection et la modération des discours de haine dans les environnements en ligne de ces régions, contribuant ainsi à favoriser un espace en ligne plus respectueux et inclusif. Les médias sociaux, les forums en ligne et les plateformes communautaires, ainsi que les sites Web d'actualités et de médias ne sont que quelques-uns des nombreux domaines dans lesquels la mise en œuvre de SGHateCheck sera utile.
Heureusement, une nouvelle application de modération de contenu utilisant SGHateCheck figure déjà sur la liste des projets futurs du professeur adjoint Lee. Il souhaite également étendre SGHateCheck à d'autres langues d'Asie du Sud-Est telles que le thaï et le vietnamien.
SGHateCheck démontre comment l'éthique de SUTD, qui consiste à intégrer les avancées technologiques de pointe à des principes de conception réfléchis, peut conduire à des solutions concrètes et efficaces. Grâce à l'utilisation du design, de l'IA et de la technologie, SGHateCheck a été développé pour analyser les langues locales et les dynamiques sociales afin de répondre à un besoin sociétal spécifique.
« En se concentrant sur la création d'un outil de détection des discours de haine qui soit non seulement sophistiqué sur le plan technologique mais également sensible sur le plan culturel, l'étude souligne l'importance d'une approche centrée sur l'humain dans la recherche et le développement technologiques », a déclaré le professeur adjoint Lee.