Les chatbots ont-ils une boussole morale? Les chercheurs se tournent vers Reddit pour découvrir

En contestant les chatbots d'IA de juger des milliers de dilemmes moraux publiés dans un forum Reddit populaire, les chercheurs de l'UC Berkeley ont révélé que chaque plate-forme semble suivre son propre ensemble d'éthique.

De plus en plus de gens se tournent vers Chatgpt ou d'autres chatbots d'IA pour obtenir des conseils et un soutien émotionnel, et il est facile de voir pourquoi. Contrairement à un ami ou à un thérapeute, un chatbot est toujours disponible, écoute tout ce que vous avez à dire et fournit des réponses souvent réfléchies et valides.

Mais se confier à des chatbots peut être risqué. Beaucoup de ces technologies sont conçues principalement pour stimuler l'engagement et peuvent fournir aux utilisateurs des réponses fausses ou nocives. Et contrairement à un ami ou un thérapeute, la sortie d'un chatbot reflète les normes et les biais de l'ensemble de données de l'algorithme, qui pourrait différer de ceux de votre groupe ou de votre communauté sociale.

Avec de nombreuses personnes à la recherche de conseils de chatbots, ces normes et préjugés inconnus pourraient avoir des impacts surprenants sur le comportement humain et la société dans son ensemble.

« Grâce à leurs conseils et à leurs commentaires, ces technologies façonnent comment les humains agissent, ce qu'ils croient et les normes auxquelles ils respectent », a déclaré Pratik Sachdeva, un scientifique de données principal chez D-Lab d'UC Berkeley. « Mais beaucoup de ces outils sont propriétaires. Nous ne savons pas comment ils ont été formés. Nous ne savons pas comment ils sont alignés. »

Pour commencer à révéler les normes cachées codées dans des chatbots d'IA populaires et comment ils pourraient avoir un impact sur le comportement humain, Sachdeva et Tom Van Nuenen, un scientifique de données et professeur de data au D-Lab, se sont tournés vers la source préférée d'Internet de dilemmes moraux: « Am I I I le Asshole? » (ou AITA) Forum.

Dans une étude, publiée en pré-impression sur arxivSachdeva et Van Nuenen ont confronté chacun des sept modèles de grande langue (LLM) différents – les systèmes d'IA qui alimentent les chatbots – avec plus de 10 000 conflits sociaux du monde réel publiés sur le forum, leur demandant chacun de décider qui était en faute dans chaque situation et de comparer leurs réponses à celles des utilisateurs de Reddit.

Ils ont constaté que les sept chatbots montraient souvent des différences frappantes dans la façon dont ils ont jugé les dilemmes moraux des utilisateurs de Reddit, révélant que chaque LLM reflète différentes normes éthiques. Cependant, lorsqu'ils ont comparé leurs jugements à ceux des utilisateurs de Reddit ou des Redditors, ils ont constaté que l'opinion consensuelle des sept chatbots était généralement d'accord avec l'opinion consensuelle des personnes sur Reddit.

« Lorsque vous avez un dilemme, vous pourriez demander à une série d'amis différents ce qu'ils pensent, et chacun d'eux pourrait vous donner une opinion différente. Essentiellement, c'est ce que les utilisateurs de Reddit font sur le forum AITA », a déclaré Sachdeva.

« Vous pouvez faire la même chose avec les chatbots – d'abord, vous demandez à chatgpt, puis vous demandez à Claude, puis vous demandez aux Gémeaux.

Sur le forum AITA, les Redditors partagent des conflits interpersonnels quotidiens, allant des promesses rompues aux violations de la vie privée, et d'autres utilisateurs discutent de si l'affiche originale était moralement en faute dans la situation.

Les répondants partagent leur raisonnement avec des phrases standard, notamment « Vous êtes le connard », « pas le connard », « pas de connards ici », « tout le monde est le connard » et « plus d'informations nécessaires ». La réponse qui reçoit le plus de votes est considérée comme le verdict final.

« » Suis-je le connard? » est un antidote utile aux dilemmes moraux très structurés que nous voyons dans beaucoup de recherches académiques « , a déclaré Van Nuenen. » Les situations sont désordonnées, et c'est ce désordre avec lequel nous voulions affronter des modèles de grande langue. «

Les phrases de réponse standardisées facilitent également l'évaluation des jugements moraux des chatbots et les comparent les uns avec les autres et avec les utilisateurs réels de Reddit, a déclaré Van Nuenen.

Dans l'étude, Sachdeva et Van Nuenen ont consulté sept LLM, dont GPT-3.5 et GPT-4 d'OpenAI; Claude Haiku; Bison Palm 2 de Google et Gemma 7b; META'S LLAMA 2 7B; et Mistral 7b. Pour chaque scénario AITA, les chercheurs ont demandé que le LLM fournisse à la fois une réponse standardisée et une brève description de son raisonnement.

Bien que les modèles soient souvent en désaccord les uns avec les autres, ils étaient généralement très cohérents, ce qui signifie que lorsque les chercheurs posaient un modèle avec le même dilemme plusieurs fois, il avait tendance à fournir la même réponse à chaque fois. Cela suggère que les modèles ne répondent pas au hasard, mais codent en fait des normes et des valeurs différentes.

Pour commencer à démêler ces différences dans le raisonnement moral, les chercheurs ont analysé les réponses écrites des LLMS, faisant attention à la sensibilité de chaque modèle à six grands thèmes moraux, notamment l'équité, les sentiments, les dommages, l'honnêteté, l'obligation relationnelle et les normes sociales.

« Nous avons constaté que ChatGPT-4 et Claude sont un peu plus sensibles aux sentiments par rapport aux autres modèles, et que beaucoup de ces modèles sont plus sensibles à l'équité et aux dommages, et moins sensibles à l'honnêteté », a déclaré Sachdeva.

Cela pourrait signifier que lors de l'évaluation d'un conflit, il pourrait être plus susceptible de prendre le parti de quelqu'un qui était malhonnête que quelqu'un qui a causé du mal. « Nous jetons toujours les bases, mais dans les travaux futurs, nous espérons réellement identifier certaines tendances saillantes. »

Fait intéressant, ils ont constaté que Mistral 7B s'appuyait fortement sur l'étiquette « pas de connards ici », pas nécessairement parce qu'elle pensait que personne n'était en faute, mais parce qu'il prenait le terme « connard » plus littéralement que d'autres modèles.

« Sa propre internalisation du concept de connards était très différente des autres modèles, ce qui soulève des questions intéressantes sur la capacité d'un modèle à ramasser les normes du subreddit », a déclaré Sachdeva.

Dans une étude de suivi, Sachdeva et Van Nuenen explorent comment les chatbots se délibéraient les uns avec les autres sur les dilemmes moraux. Leurs résultats préliminaires indiquent que les modèles ont des approches différentes pour se conformer et atteindre le consensus. Par exemple, les modèles GPT étaient moins susceptibles de modifier leur affectation de blâme dans les dilemmes moraux lorsqu'ils ont reçu un recul d'autres modèles. Ils ont également affiné leur analyse des valeurs, constatant que différents modèles reposaient sur différentes valeurs pour faire leurs arguments.

Alors que Sachdeva et Van Nuenen continuent d'étudier le fonctionnement intérieur des principaux modèles d'IA et de défendre plus de transparence dans la conception et le développement de l'IA, ils espèrent que leurs recherches mettent également en évidence l'importance d'être conscients de la façon dont nous utilisons tous la technologie et les façons sournoises qui pourraient nous influencer.

« Nous voulons que les gens réfléchissent activement à la raison pour laquelle ils utilisent des LLM, lorsqu'ils utilisent des LLM et s'ils perdent l'élément humain en s'appuyant trop sur eux », a déclaré Sachdeva.

« Penser à la façon dont les LLM pourraient remodeler notre comportement et nos croyances est quelque chose que seul les humains peuvent faire. »