Des messages subtils et hostiles sur les réseaux sociaux sont manqués par les outils d'intelligence artificielle

Un exemple de structure de texte extraite à l’aide de l’analyseur RST. Crédit: Tendances de l’IA du point de vue des équipes rouges et bleues : données synthétiques dans une société axée sur les données par rapport à l’analyse des sentiments (2023).

Un rapport du Centre d’excellence des communications stratégiques de l’OTAN (StratCom COE) a averti que de nombreux outils d’intelligence artificielle (IA) utilisés pour surveiller les publications sur les réseaux sociaux sont trop littéraux et ont du mal à détecter les messages hostiles subtils et la désinformation.

De nombreux modèles d’apprentissage automatique permettent aux plateformes, aux entreprises et aux gouvernements d’estimer l’émotion des publications et des vidéos en ligne.

Cependant, une semaine avant le Festival mondial de Cannes sur l’intelligence artificielle (9-11 février), une équipe d’experts affirme que la majorité de ces systèmes basés sur l’IA reposent sur la compréhension du sentiment derrière un message, qui n’est pas aussi clair qu’on le pensait.

Leur étude publiée dans le cadre d’une collaboration entre l’Université de Portsmouth et un rapport de recherche du Centre d’excellence des communications stratégiques de l’OTAN explore les tendances de l’IA. Il décrit les limites de ces stratégies de sentiment open source et recommande des moyens de les améliorer.

Le but du texte microagressif en ligne est d’attaquer un individu, un groupe, une organisation ou un pays, d’une manière difficile à repérer lorsqu’elle est analysée par l’IA.

Le Dr Alexander Gegov, lecteur en intelligence computationnelle et chef de l’équipe de l’Université de Portsmouth travaillant sur la recherche pour le StratCom COE de l’OTAN, a déclaré : « Les micro-agressions subtiles sont dangereuses sur les plateformes de médias sociaux car elles peuvent souvent trouver un écho chez des personnes partageant des croyances similaires et aider à propager des substances toxiques. ou des messages hostiles. »

« Estimer les émotions en ligne est un défi, mais dans ce rapport, nous avons démontré qu’il existe de nombreuses façons d’améliorer nos pipelines de prétraitement conventionnels. Il est temps d’aller au-delà des simples émotions polaires et d’apprendre à l’IA à évaluer le contexte d’une conversation. »

Les auteurs disent que le classificateur d’émotions de Google Jigsaw est un ajout intéressant à l’analyse des émotions polaires en ligne, mais ses classificateurs sont incapables de faire la distinction entre les réponses des lecteurs aux commentaires toxiques ou quelqu’un qui propage un discours de haine.

Ils ont découvert qu’une approche différente, connue sous le nom de théorie de la structure rhétorique (RST), est un moyen plus robuste et efficace d’analyser les microagressions. D’une certaine manière, cela imite la façon dont les cerveaux pèsent inconsciemment différentes parties de phrases en attribuant une importance à certains mots ou expressions.

Par exemple : « Aujourd’hui, c’est pas mal » et « C’est une jolie robe » contiennent tous deux le mot positif « jolie ». Mais « joli » peut aussi intensifier le sentiment des mots qui l’entourent, par exemple « mauvais ».

« Il est clair qu’analyser le texte seul ne suffit pas pour tenter de classer des formes plus subtiles de discours de haine », a expliqué Djamila Ouelhadj, co-responsable de la recherche, professeure de recherche opérationnelle et d’analyse à l’université de Portsmouth.

« Notre recherche avec le NATO StratCom COE a proposé quelques recommandations sur la façon d’améliorer les outils d’intelligence artificielle pour répondre à ces limitations.

« Apprendre comment un individu a élaboré un message offre une source d’informations riche et inexploitée qui peut fournir à un analyste « l’histoire » de comment et pourquoi le message a été assemblé.

« Lors de l’analyse des messages et des tweets de groupes et d’individus offensants ou anti-occidentaux, par exemple, le modèle RST peut nous dire à quel point un groupe est radicalisé, en fonction de sa confiance dans le sujet qu’il diffuse.

« Cela peut également aider à détecter si quelqu’un est manipulé ou radicalisé en mesurant le niveau d’insécurité que la personne affiche lorsqu’elle transmet son » opinion « . »

L’équipe a produit un éventail d’ensembles de données pour comprendre les micro-agressions et les a testées à l’aide de textes en anglais et en russe.

Ils ont extrait un échantillon de 500 messages en langue russe d’une chaîne Telegram liée au Kremlin discutant de la guerre ukrainienne et ont analysé leurs niveaux d’hostilité à l’aide du modèle Google Jigsaw.

Le texte traduit a obtenu un score de toxicité inférieur à celui des documents russes originaux. Cela a mis en évidence que lorsque la messagerie est traduite de sa langue d’origine par l’IA, certaines des inférences toxiques sont manquées ou négligées. L’effet pourrait être encore plus fort lors de l’analyse de la micro-agression, où l’hostilité n’est pas aussi évidente.

Pour surmonter cela, le document indique que les traducteurs en ligne peuvent être affinés et adaptés aux pays et aux langues spécifiques à la région.

Le Dr Gundars Bergmanis-Korāts, expert principal au NATO StratCom COE, a déclaré : « Les gouvernements, les organisations et les institutions de l’OTAN et des pays alliés doivent relever les défis actuels de l’IA et se concentrer sur les ajustements aux spécificités des langues locales afin d’assurer l’égalité des capacités de l’IEA. »

« Les organisations militaires et gouvernementales utilisent des outils d’apprentissage automatique pour détecter, mesurer et atténuer la désinformation en ligne, et mesurer l’efficacité et la portée des communications. Par conséquent, comprendre les publics en analysant le contexte de la communication est crucial. »

L’année dernière, les États-Unis ont consacré plus d’un demi-million de dollars au développement d’un modèle d’intelligence artificielle capable de détecter et de supprimer automatiquement les micro-agressions sur les réseaux sociaux.

Le Dr Gegov a ajouté : « Souvent, l’essence globale de la messagerie des médias sociaux est cachée entre des phrases moins pertinentes, c’est pourquoi des étapes de filtrage manuel et de post-traitement sur les plateformes sont nécessaires. »

« Cela ne changera probablement pas du jour au lendemain, mais bien qu’il n’y ait pas un seul » outil qui fasse tout « , nous explorons quelques astuces simples que les analystes de données et les passionnés d’IA peuvent utiliser pour potentiellement augmenter les performances de leurs pipelines de traitement de texte. »

« Nous encourageons également les moniteurs de médias sociaux à devenir plus transparents sur les systèmes qu’ils utilisent actuellement. »

Fourni par l’Université de Portsmouth