Les grands modèles de langage peuvent-ils identifier un langage manipulateur ?
Comme la plupart des choses dans notre vie d’aujourd’hui, les conversations interpersonnelles sont également devenues numériques.
« Avec le déplacement des conversations privées vers les applications de messagerie et les réseaux sociaux, les cas de manipulation mentale et émotionnelle en ligne se multiplient », explique Yuxin Wang, doctorant en deuxième année d'informatique. étudiant, qui travaille avec Soroush Vosoughi, professeur adjoint d'informatique et Saeed Hassanpour, professeur de science sata biomédicale et d'épidémiologie et directeur du Centre pour la santé de précision et l'intelligence artificielle.
Wang définit la manipulation mentale, telle que le gaslighting, comme une forme de violence verbale visant délibérément à contrôler ou à influencer les pensées de quelqu'un pour son bénéfice personnel. Les menaces de sabotage de carrière de la part d'un employeur ou d'un superviseur, ou le chantage émotionnel dans des relations toxiques, en sont des exemples courants.
Parce qu'un tel langage est implicite et dépendant du contexte, reconnaître un langage manipulateur peut être très difficile pour les grands modèles de langage, explique Wang. Ces modèles alimentent un nombre rapidement croissant d'applications que nous utilisons chaque jour pour communiquer ainsi que consommer et créer du contenu.
Pour combler cette lacune, Wang et ses collaborateurs ont compilé un nouvel ensemble de données de conversations qui présentent ou mettent en évidence la manipulation dans les conversations et ont utilisé l'ensemble de données pour analyser l'efficacité des modèles d'IA de pointe pour identifier le contenu manipulateur.
Les résultats de leur étude ont été présentés lors de la réunion annuelle de l'Association for Computational Linguistics en août.
L'ensemble de données MentalManip contient 4 000 ensembles de dialogues fictifs entre deux personnages extraits de scripts de films du Cornell Movie Dialogs Corpus. Les chercheurs ont utilisé deux stratégies pour filtrer la source de données et trouver des dialogues comportant des éléments de manipulation.
La première consistait à compiler manuellement une liste de 175 phrases clés fréquemment utilisées dans le langage de la manipulation mentale, telles que « Vous êtes trop sensible » ou « Je connais votre manager ». Les dialogues dans les données sources ont été passés au peigne fin pour rechercher des correspondances avec ces expressions. La deuxième méthode consistait à former un modèle pour distinguer les dialogues potentiellement manipulateurs grâce à un apprentissage supervisé.
Les chercheurs ont ensuite testé certains LLM bien connus, notamment le GPT-4 d’OpenAI et le Llama-2 de Meta. Les modèles ont été chargés d'identifier si un dialogue présenté par les chercheurs contenait des éléments de manipulation.
Une deuxième expérience a mis les modèles au défi d'identifier laquelle, parmi trois conversations, contenait un langage manipulateur après qu'on leur ait montré quelques exemples. Enfin, les modèles ont été affinés à l’aide d’exemples étiquetés de langage manipulateur issus du nouvel ensemble de données avant de tester leur capacité à identifier la manipulation.
Les chercheurs ont constaté que les modèles n’étaient pas à la hauteur de la tâche de catégorisation du contenu manipulateur dans les trois cas.
Les modèles, en particulier les plus petits LLM, ont tendance à identifier la toxicité générale et le langage grossier comme de la manipulation, signe de leur hypersensibilité excessive. Leurs performances globales dans la détection des manipulations mentales n’étaient pas satisfaisantes et ne se sont pas améliorées grâce à l’affinement des modèles sur les ensembles de données pertinents existants sur la santé mentale ou la détection de la toxicité. Une analyse des phrases dans les conversations a révélé qu'elles sont sémantiquement indiscernables, ce qui constitue probablement un facteur contribuant à entraver les performances des modèles.
Wang espère que leur ensemble de données et leurs résultats préliminaires inspireront davantage de recherches sur ce sujet. Les modèles LLM formés pour reconnaître de manière fiable la manipulation pourraient être un outil précieux pour une intervention précoce, avertissant les victimes que l'autre partie essaie de les manipuler, explique Wang.
Reconnaître l’intention manipulatrice, surtout lorsqu’elle est implicite, nécessite un niveau d’intelligence sociale qui manque aux systèmes d’IA actuels, selon Vosoughi.
« Nos travaux montrent que même si les grands modèles de langage deviennent de plus en plus sophistiqués, ils ont encore du mal à saisir les subtilités de la manipulation dans le dialogue humain », explique Vosoughi. « Cela souligne la nécessité de disposer d'ensembles de données et de méthodes plus ciblées pour détecter efficacement ces formes nuancées d'abus. »