Des chercheurs développent l’IA pour sauver les humains du fardeau émotionnel lié à la surveillance des discours de haine
Une équipe de chercheurs de l'Université de Waterloo a développé une nouvelle méthode d'apprentissage automatique qui détecte les discours haineux sur les plateformes de médias sociaux avec une précision de 88 %, évitant ainsi aux employés des centaines d'heures de travail émotionnellement préjudiciables.
La méthode, baptisée transformateur de discussion multimodal (mDT), peut comprendre la relation entre le texte et les images et placer les commentaires dans un contexte plus large, contrairement aux méthodes précédentes de détection des discours de haine. Cela est particulièrement utile pour réduire les faux positifs, qui sont souvent signalés à tort comme des discours de haine en raison d'un langage culturellement sensible.
« Nous espérons vraiment que cette technologie pourra aider à réduire le coût émotionnel lié au fait que les humains examinent manuellement les discours de haine », a déclaré Liam Hebert, titulaire d'un doctorat en informatique à Waterloo. étudiant et premier auteur de l’étude. « Nous pensons qu'en adoptant une approche centrée sur la communauté dans nos applications d'IA, nous pouvons contribuer à créer des espaces en ligne plus sûrs pour tous. »
Les chercheurs construisent depuis de nombreuses années des modèles pour analyser le sens des conversations humaines, mais ces modèles ont toujours eu du mal à comprendre les conversations nuancées ou les déclarations contextuelles. Les modèles précédents n’ont pu identifier les discours de haine qu’avec une précision de 74 %, soit un niveau inférieur à ce que la recherche de Waterloo a pu accomplir.
« Le contexte est très important pour comprendre le discours de haine », a déclaré Hébert. « Par exemple, le commentaire 'C'est dégoûtant !' peut être inoffensif en soi, mais sa signification change radicalement s'il s'agit d'une réponse à une photo d'une pizza à l'ananas par rapport à une personne issue d'un groupe marginalisé.
« Comprendre cette distinction est facile pour les humains, mais former un modèle pour comprendre les connexions contextuelles dans une discussion, y compris en considérant les images et autres éléments multimédias qu'elles contiennent, est en réalité un problème très difficile. »
Contrairement aux efforts précédents, l’équipe de Waterloo a construit et formé son modèle sur un ensemble de données composé non seulement de commentaires haineux isolés, mais également du contexte de ces commentaires. Le modèle a été formé sur 8 266 discussions Reddit avec 18 359 commentaires étiquetés provenant de 850 communautés.
« Plus de trois milliards de personnes utilisent les réseaux sociaux chaque jour », a déclaré Hébert. « L'impact de ces plateformes de médias sociaux a atteint des niveaux sans précédent. Il est absolument nécessaire de détecter les discours de haine à grande échelle afin de créer des espaces où chacun est respecté et en sécurité. »
Les résultats sont publiés sur le arXiv serveur de préimpression.