Utiliser un ensemble de données multilingues pour améliorer la détection des vidéos haineuses sur YouTube et Bilibili

Utiliser un ensemble de données multilingues pour améliorer la détection des vidéos haineuses sur YouTube et Bilibili

Les médias sociaux ont révolutionné la manière dont les informations sont partagées au sein des communautés, mais ils peuvent aussi être un cloaque de contenus haineux. Les recherches actuelles sur la détection des contenus haineux se concentrent sur l’analyse textuelle, tandis que la détection des vidéos haineuses reste sous-explorée.

« Les discours de haine dans les vidéos peuvent être véhiculés par le langage corporel, le ton et les images, ce que l'analyse de texte traditionnelle oublie. À mesure que des plateformes comme YouTube et TikTok atteignent un large public, les contenus haineux sous forme vidéo peuvent être plus convaincants et plus engageants sur le plan émotionnel, augmentant ainsi le risque de influencer ou radicaliser les téléspectateurs », a expliqué Roy Lee, professeur adjoint à l'Université de technologie et de design de Singapour (SUTD).

Dans son article « MultiHateClip : Un ensemble de données de référence multilingue pour la détection de vidéos haineuses sur YouTube et Bilibili », le professeur adjoint Lee a dirigé une équipe pour développer MultiHateClip, un nouvel ensemble de données multilingues qui vise à améliorer la détection des vidéos haineuses sur les plateformes de médias sociaux. Il a précédemment créé SGHateCheck, un nouveau test fonctionnel évaluant les discours de haine dans des environnements multilingues. L'étude est publiée sur le arXiv serveur de préimpression.

À l'aide de lexiques de haine et d'annotations humaines axées sur la haine basée sur le genre, MultiHateClip classe les vidéos en trois catégories : haineuses, offensantes et normales. Les contenus haineux impliquent une discrimination à l'encontre d'un groupe spécifique de personnes sur la base d'attributs spécifiques tels que l'orientation sexuelle.

Les contenus offensants sont pénibles, mais ne présentent pas les effets néfastes ciblés des discours de haine et n’incitent pas à la haine. Le contenu normal n’est ni haineux ni offensant. Comparé à une classification binaire (haineux versus non haineux), ce système en trois catégories permet une approche plus nuancée de la modération des contenus.

Après avoir examiné plus de 10 000 vidéos, l’équipe a sélectionné 1 000 courts clips annotés chacun sur YouTube et Bilibili pour représenter respectivement l’anglais et le chinois pour MultiHateClip. Parmi ces clips, un schéma cohérent de haine sexiste à l’égard des femmes est apparu. La plupart de ces vidéos utilisaient une combinaison d’éléments textuels, visuels et auditifs pour véhiculer la haine, soulignant la nécessité d’une approche multimodale pour comprendre le discours de haine.

Comparé aux ensembles de données existants qui sont plus simples et manquent de détails, MultiHateClip est enrichi d'annotations fines et complètes. Il fait la distinction entre les vidéos haineuses et offensantes, et souligne quels segments de la vidéo sont haineux, qui sont les victimes ciblées et quelles modalités traduisent la haine (c'est-à-dire texte, visuel, auditif). Il offre également une forte perspective interculturelle car il comprend des vidéos provenant à la fois de contextes occidentaux (YouTube) et chinois (Bilibili), soulignant comment la haine s'exprime différemment selon les cultures.

L’équipe s’attendait à ce qu’il soit difficile de distinguer les vidéos haineuses des vidéos offensantes, car les deux partagent des similitudes, telles qu’un langage incendiaire et des sujets controversés. Les discours haineux ciblent des groupes spécifiques, tandis que les contenus offensants provoquent un inconfort sans intention de discrimination. Les différences subtiles de ton, de contexte et d’intention rendent difficile pour les annotateurs humains et les modèles d’apprentissage automatique de tracer la frontière entre contenu haineux et offensant.

« De plus, les nuances culturelles et linguistiques compliquent encore davantage la distinction, en particulier dans des contextes multilingues comme l'anglais et le chinois, où les expressions de haine ou d'offense peuvent varier considérablement. Cette complexité souligne la nécessité de modèles de détection plus sophistiqués capables de capturer des distinctions subtiles », a souligné Asst. Professeur Lee.

L’étude a également testé des modèles de pointe de détection de vidéos haineuses avec MultiHateClip. Les résultats ont mis en évidence trois limites critiques des modèles actuels : la difficulté de faire la distinction entre les contenus haineux et offensants, les limites des modèles pré-entraînés dans le traitement des données culturelles non occidentales et la compréhension insuffisante de la haine implicite. Ces lacunes soulignent la nécessité d’approches multimodales et culturellement adaptées à la détection des discours de haine.

MultiHateClip reflète la valeur de l’intersection du design, de l’intelligence artificielle et de la technologie. Son importance dans le monde réel est claire : détecter les discours de haine et empêcher leur diffusion. Optimisé pour le contenu vidéo, le modèle a une orientation interculturelle et est particulièrement utile sur les plateformes de médias sociaux où les vidéos constituent la principale forme de communication, telles que YouTube, TikTok et Bilibili. Les modérateurs de contenu, les décideurs politiques et les organisations éducatives bénéficieront de l'utilisation de MultiHateClip pour comprendre et atténuer la propagation des discours de haine.

« Dans l'ensemble, MultiHateClip joue un rôle crucial dans la création d'environnements en ligne plus sûrs et plus inclusifs », a déclaré le professeur adjoint Lee, qui a partagé la possibilité de collaborer avec les plateformes de médias sociaux pour déployer le modèle dans des contextes réels. En outre, l’équipe pourrait potentiellement envisager d’élargir l’ensemble de données pour inclure davantage de langues et de contextes culturels, d’améliorer les performances du modèle en créant de meilleurs algorithmes capables de distinguer les contenus haineux et offensants et de développer des outils de détection des discours de haine en temps réel.