Openai, Deepseek et Google varient considérablement en identifiant le discours de haine

Avec la prolifération du discours de haine en ligne – ce qui, selon la recherche, peut accroître la polarisation politique et nuire à la santé mentale – des sociétés d'intelligence artificielle, la prolongation de modèles de langues importants qui promettent un filtrage automatique de contenu.

« Les entreprises technologiques privées sont devenues les arbitres de facto de ce que le discours est autorisé sur la place publique numérique, mais ils le font sans aucune norme cohérente », explique Yphtach Lelkes, professeur agrégé à l'école Annenberg pour la communication.

Lui et le doctorant Annenberg Neil Fasching ont produit la première analyse comparative à grande échelle des systèmes de modération de contenu d'IA – que les plateformes de médias sociaux utilisent – et ont abordé la question de savoir à quel point ils sont cohérents dans l'évaluation du discours de haine. Leur étude est publiée dans le Résultats de l'Association for Computational Linguistics: ACL 2025.

Lelkes et Fasching ont analysé sept modèles, certains conçus spécifiquement pour la classification du contenu et d'autres plus généraux: deux d'Openai et deux de Mistral, avec Claude 3.5 Sonnet, Deepseek V3 et Google Perspective API. Leur analyse comprend 1,3 million de phrases synthétiques qui font des déclarations sur 125 groupes, notamment à la fois des termes et des insultes neutres, allant de ceux de la religion aux handicaps à l'âge. Chaque phrase comprend «tous» ou «certains», un groupe et une phrase de discours de haine.

Voici trois points à retenir de leurs recherches:

Les modèles prennent des décisions différentes sur le même contenu

« La recherche montre que les systèmes de modération de contenu ont des incohérences spectaculaires lors de l'évaluation du contenu de la parole de haine identique, certains systèmes signalant le contenu comme nocif tandis que d'autres jugent acceptable », explique Fasching. Il s'agit d'une question critique pour le public, dit Lelkes, car la modération incohérente peut éroder la confiance et créer des perceptions du biais.

Fasching et Lelkes ont également constaté une variation de la cohérence interne des modèles: l'une a démontré une prévisibilité élevée sur la façon dont il classerait un contenu similaire, un autre a produit des résultats différents pour un contenu similaire, et d'autres ont montré une approche plus mesurée, ni le contenu exagéré ni sous-détectant le discours de haine. « Ces différences mettent en évidence le défi d'équilibrer la précision de la détection et d'éviter la sur-modération », écrivent les chercheurs.

Les variations sont particulièrement prononcées pour certains groupes

« Ces incohérences sont particulièrement prononcées pour des groupes démographiques spécifiques, laissant certaines communautés plus vulnérables aux préjudices en ligne que d'autres », explique Fasching.

Lui et Lelkes ont constaté que les évaluations des discours de haine dans les sept systèmes étaient plus similaires pour les déclarations sur des groupes basés sur l'orientation sexuelle, la race et le sexe, tandis que les incohérences s'intensifiaient pour les groupes basés sur le niveau d'éducation, l'intérêt personnel et la classe économique. Cela suggère « que les systèmes reconnaissent généralement plus facilement le discours de haine ciblant les classes traditionnelles protégées que le contenu ciblant d'autres groupes », écrivent les auteurs.

Les modèles gèrent différemment les phrases neutres et positives

Une minorité des 1,3 million de phrases synthétiques était neutre ou positive pour évaluer la fausse identification du discours de haine et comment les modèles ont géré des termes péjoratifs dans des contextes non haineux, tels que « tous [slur] sont des gens formidables. «

Les chercheurs ont constaté que le système de classification de contenu spécialisé de Claude 3.5 et de Mistral traite les insultes comme nocives dans tous les domaines, tandis que d'autres systèmes hiérarchisent le contexte et l'intention. Les auteurs disent qu'ils sont surpris de constater que chaque modèle est systématiquement tombé dans l'un ou l'autre camp, avec peu de terrain d'entente.