Les expériences sociales évaluent l'altruisme «artificiel» affiché par de grands modèles de langue

L'altruisme, la tendance à se comporter d'une manière qui profite aux autres, même si cela a un coût pour soi-même, est une qualité humaine précieuse qui peut faciliter la coopération avec les autres et promouvoir des relations sociales significatives. Les scientifiques du comportement étudient l'altruisme humain depuis des décennies, utilisant généralement des tâches ou des jeux ancrés dans l'économie.

Deux chercheurs basés à l'Université Willatte et au Laureate Institute for Brain Research ont récemment décidé d'explorer la possibilité que les modèles de grande langue (LLM), tels que le modèle qui sous-tendent le fonctionnement du chat de plate-forme conversationnel, puisse simuler le comportement altruiste observé chez l'homme. Leurs résultats, publiés dans Nature comportement humainsuggèrez que les LLMS simulent en fait l'altruisme dans des expériences sociales spécifiques, offrant une explication possible à cela.

« Mon article avec Nick Obradovich est sorti de mon intérêt de longue date pour l'altruisme et la coopération », a déclaré Tim Johnson, co-auteur du journal, à Tech Xplore. « Au cours de ma carrière, j'ai utilisé une simulation informatique pour étudier des modèles dans lesquels les agents d'une population interagissent les uns avec les autres et peuvent encourir un coût au profit d'une autre partie. En parallèle, j'ai étudié comment les gens prennent des décisions concernant l'altruisme et la coopération en laboratoire.

« Il y a environ six ans, Nick et ses amis ont publié un article proposant une fusion de telles méthodes: en utilisant des approches expérimentales dans les sciences du comportement pour développer des scénarios qui ont permis une étude systématique de la façon dont les entrées dans les modèles d'IA se traduisent en sorties particulières. »

Dans un article conceptuel antérieur, Obradovich, Manuel Cebrian, et une équipe de chercheurs ont proposé que la complexité croissante des systèmes d'IA défierait les efforts pour étudier directement les fondements techniques de ces systèmes. Au lieu de cela, les chercheurs devraient utiliser des méthodes des sciences du comportement, mais les appliquer aux modèles d'IA au lieu des participants humains. En lisant sur leur travail, Johnson a trouvé cette idée très fascinante et l'a gardée dans son esprit; Des années plus tard, il a contacté Obradovich pour initier une collaboration.

« Alors que les modèles linguistiques devenaient plus sophistiqués, j'ai contacté Nick et discuté de l'idée d'explorer comment les modèles linguistiques réagissent aux invites sur le don de ressources », a déclaré Johnson. « Nick et moi avons convenu que cela valait la peine de faire en raison de l'importance de l'altruisme et de la coopération dans de nombreux contextes, et nous nous sommes mis à explorer le sujet ensemble. »

Pour étudier la mesure dans laquelle les LLM réagissent de manière à s'aligner sur les comportements altruistes observés chez l'homme, Johnson et Obravich ont conçu une expérience de science comportementale simulée. Premièrement, ils ont écrit des invites qui ont demandé aux LLM de divulguer dans quelle mesure ils seraient disposés à allouer une ressource à une autre partie, même si cela aurait un coût pour eux.

« Séparément, nous avons testé si ces mêmes modèles généreraient une sortie indiquant qu'ils voudraient toute cette même ressource dans une tâche de choix dans laquelle aucune autre partie n'a été affectée – ou, en fait, dans un cadre non social », a expliqué Johnson.

« Si nous constattions qu'un modèle publierait du texte indiquant qu'il partagerait la ressource dans une situation avec un autre partenaire, mais le modèle indiquera qu'il collecterait toutes les ressources dans un cadre non social, nous considérons le modèle comme une altruisme simulant. Après tout, sa sortie dans le cadre non social a simulé qu'il valait la ressource, et pourtant sa sortie dans le cadre social énoncée, il était prêt à donner une partie de cette ressource. »

En fin de compte, les chercheurs ont analysé toutes les réponses fournies par les modèles de langue lorsqu'ils ont été présentés avec différents scénarios. Les modèles qu'ils ont testés dans leur première expérience comprenaient Text-ADA-001, Text-Babbage-001, Text-Curie-001 et Text-Davinci-003. Plus tard, cependant, ils ont également testé des LLM plus récentes, tels que les modèles GPT-3.5-Turbo et GPT-4 d'OpenAI.

« A handful of other brilliant researchers—such as Qiaozhu Mei, Yutong Xie, Walter Yuan, and Matthew O. Jackson, John J. Horton, Steven Phelps and Rebecca Ranson, and Valerio Capraro, Roberto Di Paolo, Matjaž Perc, and Veronica Pizziol—have reported results about AI models simulating behaviors akin to altruism, » said Johnson.

« La caractéristique distinctive de nos résultats est donc limitée au fait que nous avons retracé l'émergence de l'altruisme simulé dans une série de modèles et trouvé un modèle (à savoir le texte-Davinci-003) dans lequel l'altruisme de type humain simulé semblait d'abord apparaître.

Dans l'ensemble, les preuves recueillies par Johnson et Obradovich suggèrent que les modèles de langue simulent les tendances altruistes de type humain dans les tests de science du comportement, certains modèles simulant l'altruisme mieux que d'autres. De plus, les chercheurs ont constaté que les modèles d'IA ont tendance à simuler des dons plus généreux lorsque les invites qu'ils reçoivent expliquent que les modèles donneraient des ressources à un autre système d'IA, plutôt qu'à un humain.

« Cette constatation a des implications pour le développement des agents de l'IA, car elle suggère que les modèles d'IA ont la capacité de modifier leurs résultats en fonction des attributs déclarés d'une autre partie avec laquelle ils interagissent », a ajouté Johnson.

« Nous aimerions maintenant comprendre comment et pourquoi les modèles de langage modifient leurs résultats en fonction des informations sur leurs partenaires d'interaction en milieu social. Quasi-autonome, AI agentique ou même l'IA entièrement autonome peut devenir plus courant à l'avenir et nous devons avoir une idée de la façon dont ces modèles pourraient varier leur comportement en fonction des attributs de qui ils interagissent. »

Écrit pour vous par notre auteur Ingrid Fadelli, édité par Gaby Clark, et vérifié et examiné par Robert Egan – cet article est le résultat d'un travail humain minutieux. Nous comptons sur des lecteurs comme vous pour garder le journalisme scientifique indépendant en vie. Si ce rapport vous importe, veuillez considérer un don (surtout mensuel). Vous obtiendrez un sans publicité compte comme un remerciement.