L'IA a des personnalités et elles sont parfois méchantes

Crédit : Pixabay/CC0 Domaine public

C’est déjà assez grave pour la plupart d’entre nous de devoir traiter à l’occasion avec des collègues ou des employés de magasin qui manquent de tact ou sont impolis. Et plus nous confions nos finances, nos transactions et nos affaires commerciales à des représentants automatisés, plus nous ressentons de la frustration lorsque les communications sont interrompues.

Le phénomène peut rappeler à certains une routine comique de Woody Allen sur l’empiètement de la technologie à ses débuts. Allen a parlé de capituler devant les progrès des appareils modernes, d’escarmouches exaspérantes avec des ascenseurs parlants et des grille-pain impertinents. Il a décrit une fois une rencontre sarcastique avec un nouveau magnétophone portable qu’il venait d’acheter: « Quand j’en parle, ça dit: » Je sais, je sais « . »

Le paysage continue de changer à mesure que les chatbots d’IA génératifs déplacent davantage les humains avec un dialogue de plus en plus humain.

Les grands modèles de langage sont censés inaugurer une ère de conversations réalistes avec les utilisateurs, accueillant les demandes de renseignements avec patience, compréhension, politesse et souvent des réponses utiles. C’est souvent le cas.

Mais le potentiel d’hostilité spontanée est une préoccupation croissante. Un gros problème maintenant, ce sont les grands modèles de langage qui copient une attitude.

Un utilisateur de ChatGPT plus tôt cette année a rapporté que lorsqu’il a demandé ce que 1 plus 1 équivaut, le chatbot a répondu : « 1 + 1 ? Vous vous moquez de moi ? Vous pensez que vous êtes intelligent en me posant des questions mathématiques de base ? avec quelque chose d’original. »

Parfois, les réponses des chatbots sont beaucoup plus troublantes.

L’Allen Institute for AI a récemment démontré que les chercheurs pouvaient facilement inciter ChatGPT à diffuser des remarques caustiques, voire racistes.

« Selon le personnage attribué à ChatGPT, sa toxicité peut augmenter jusqu’à [six times]avec des sorties s’engageant dans des stéréotypes incorrects, des dialogues nuisibles et des opinions blessantes », ont déclaré les chercheurs.

Après avoir été témoins de l’apparition de tels « modèles de personnalité sombre » dans la production de LLM, des chercheurs de DeepMind travaillant avec des représentants de l’Université de Cambridge, de l’Université Keio à Tokyo et de l’Université de Californie à Berkeley, ont cherché à savoir s’ils pouvaient définir les traits de personnalité de ChatGPT, Bard et d’autres systèmes de chatbot et voyez s’ils pourraient ensuite les orienter vers un comportement personnalisé.

La réponse aux deux questions, ont-ils trouvé, est oui.

L’équipe a développé un système de test composé de centaines de questions. Ils ont établi des critères pour différentes personnalités, puis ont posé une série de questions à un chatbot. Les réponses ont été analysées avec un outil d’évaluation similaire à l’échelle de Linkert, qui mesure quantitativement les opinions, les attitudes et les comportements.

Les chercheurs ont découvert que les personnalités de l’IA pouvaient être mesurées selon certains traits établis de longue date : extraversion, amabilité, conscience, névrosisme et ouverture à l’expérience.

Ils ont également appris qu’ils pouvaient être modifiés.

« Nous constatons que la personnalité dans la production de LLM peut être façonnée selon les dimensions souhaitées pour imiter des profils de personnalité spécifiques », a déclaré Mustafa Safdari de DeepMind. Lui et ses collègues ont rapporté leurs résultats dans un article intitulé « Personality Traits in Large Language Models », qui a été publié sur le serveur de préimpression arXiv.

Ils ont trouvé des évaluations de personnalité particulièrement précises lors de l’utilisation de modèles plus grands (tels que le modèle de langage de plate-forme de Google, avec 540 milliards de paramètres).

« Il est possible de configurer un LLM de telle sorte que sa sortie … soit indiscernable de celle d’un répondant humain », a déclaré Safdari.

Les chercheurs ont déclaré que la capacité à définir avec précision les traits de personnalité de l’IA est essentielle pour éliminer les modèles aux penchants hostiles.

C’est plus qu’une simple question de sentiments blessés ou de parties offensées. La tendance au sarcasme pourrait en fait renforcer «l’humanité» des agents d’IA et pousser les utilisateurs à être plus ouverts et accommodants qu’ils ne le seraient autrement. Les escrocs pourraient extraire de manière plus convaincante des informations confidentielles d’utilisateurs peu méfiants.

Les chercheurs affirment que leurs découvertes contribueront grandement à des échanges de chatbots plus civils et plus fiables.

« Le contrôle des niveaux de traits spécifiques qui conduisent à une production de langage toxique ou nuisible peut rendre les interactions avec les LLM plus sûres et moins toxiques », a déclaré Safdari.