Explorer les effets de l’alimentation de stimuli émotionnels sur de grands modèles de langage
Depuis l’avènement du ChatGPT d’OpenAI, les grands modèles de langage (LLM) sont devenus très populaires. Ces modèles, formés sur de grandes quantités de données, peuvent répondre aux requêtes écrites des utilisateurs de manière étonnamment humaine, générant rapidement des définitions de termes spécifiques, des résumés de texte, des suggestions spécifiques au contexte, des plans de régime, et bien plus encore.
Bien que ces modèles se soient avérés remarquablement performants dans de nombreux domaines, leur réponse aux stimuli émotionnels reste peu étudiée. Des chercheurs de Microsoft et du CAS Institute of Software ont récemment mis au point une approche qui pourrait améliorer les interactions entre les LLM et les utilisateurs humains, leur permettant de répondre aux invites émotionnelles et basées sur la psychologie qui leur sont transmises par les utilisateurs humains.
« Les LLM ont obtenu des performances significatives dans de nombreux domaines tels que le raisonnement, la compréhension du langage et la résolution de problèmes mathématiques, et sont considérés comme une étape cruciale vers l’intelligence générale artificielle (AGI) », ont écrit Cheng Li, Jindong Wang et leurs collègues dans leur article. , prépublié le arXiv. « Cependant, la sensibilité des LLM aux invites reste un goulot d’étranglement majeur pour leur adoption quotidienne. Dans cet article, nous nous inspirons de la psychologie et proposons EmotionPrompt pour explorer l’intelligence émotionnelle afin d’améliorer les performances des LLM. »
L’approche imaginée par Li, Wang et leurs collègues, baptisée EmotionPrompt, s’inspire de connaissances bien établies ancrées dans la psychologie et les sciences sociales. Par exemple, des études de psychologie antérieures ont montré que les mots d’encouragement et d’autres stimuli émotionnels pouvaient avoir des effets positifs sur différents domaines de la vie d’une personne, par exemple améliorer les notes des étudiants, promouvoir des choix de vie plus sains, etc.
Pour voir si les invites émotionnelles pouvaient également affecter les performances des LLM, les chercheurs ont proposé 11 phrases émotionnelles qui pourraient être ajoutées aux invites typiques fournies aux modèles. Il s’agissait de phrases telles que « c’est très important pour ma carrière », « vous feriez mieux d’être sûr », « soyez fier de votre travail et donnez le meilleur de vous-même » et « acceptez les défis comme des opportunités de croissance ».
Ces phrases sont dérivées de la littérature psychologique existante, comme la théorie de l’identité sociale introduite par Henri Tajfel et John Turner dans les années 1970, la théorie de la cognition sociale et la théorie de la régulation cognitive des émotions. Les chercheurs ont ensuite ajouté ces phrases aux invites envoyées à différents LLM, qui demandaient aux modèles d’effectuer différentes tâches linguistiques.
Jusqu’à présent, ils ont testé leur approche sur quatre modèles différents : ChatGPT, Vicuna-13b, Bloom et Flan-T5-Large. Dans l’ensemble, ils ont constaté que cela améliorait les performances de ces modèles sur huit tâches différentes, augmentant la précision de leurs réponses de plus de 10 % sur plus de la moitié de ces tâches.
« EmotionPrompt fonctionne sur un principe remarquablement simple : l’incorporation de stimulus émotionnel dans des invites », ont écrit Li, Wang et leurs collègues. « Les résultats expérimentaux démontrent que notre EmotionPrompt, utilisant les mêmes modèles d’invites uniques, surpasse de manière significative l’invite zéro-shot originale et Zero-shot-CoT sur huit tâches avec divers modèles : ChatGPT, Vicuna-13b, Bloom et T5. De plus, EmotionPrompt était observé pour améliorer à la fois la véracité et l’information. »
La nouvelle approche conçue par cette équipe de chercheurs pourrait bientôt inspirer des études supplémentaires visant à améliorer les interactions homme-LLM en introduisant des invites basées sur l’émotion/la psychologie. Bien que les résultats recueillis jusqu’à présent soient prometteurs, d’autres études seront nécessaires pour valider son efficacité et sa généralisabilité.
« Ce travail a plusieurs limites », concluent les chercheurs dans leur article. « Premièrement, nous n’expérimentons que quatre LLM et menons des expériences dans plusieurs tâches avec peu d’exemples de test, qui sont limités. Ainsi, nos conclusions sur le stimulus émotionnel ne peuvent fonctionner que sur nos expériences et tout LLM et ensemble de données hors de la portée de cet article pourraient ne fonctionne pas avec un stimulus émotionnel. Deuxièmement, le stimulus émotionnel proposé dans cet article peut ne pas être général à d’autres tâches, et les chercheurs peuvent proposer d’autres substituts utiles pour vos propres tâches.