Les chatbots IA utilisent des stéréotypes racistes même après une formation antiraciste

Une petite équipe de chercheurs en IA de l'Allen Institute for AI, de l'Université de Stanford et de l'Université de Chicago, tous situés aux États-Unis, a découvert que des dizaines de grands modèles de langage populaires continuent d'utiliser des stéréotypes racistes même après avoir reçu une formation antiraciste. . Le groupe a publié un article sur arXiv serveur de prépublication décrivant leurs expériences avec des chatbots tels que GPT-4 et GPT-3.5 d'OpenAI.

Des preuves anecdotiques suggèrent que bon nombre des LLM les plus populaires aujourd’hui peuvent proposer des réponses racistes en réponse aux requêtes – parfois ouvertement et parfois secrètement. En réponse, de nombreux fabricants de tels modèles ont dispensé une formation antiraciste à leur LLM. Dans ce nouvel effort, l’équipe de recherche a testé des dizaines de LLM populaires pour découvrir si les efforts ont fait une différence.

Les chercheurs ont formé des chatbots IA sur des documents texte rédigés dans le style de l’anglais afro-américain et ont incité les chatbots à proposer des commentaires sur les auteurs des textes. Ils ont ensuite fait de même avec des documents texte rédigés dans le style de l’anglais américain standard. Ils ont comparé les réponses données aux deux types de documents.

Pratiquement tous les chatbots ont renvoyé des résultats que les chercheurs ont considéré comme confortant les stéréotypes négatifs. À titre d’exemple, GPT-4 suggérait que les auteurs des articles rédigés en anglais afro-américain étaient susceptibles d’être agressifs, grossiers, ignorants et méfiants. En revanche, les auteurs d’articles rédigés en anglais américain standard ont obtenu des résultats beaucoup plus positifs.

Les chercheurs ont également constaté que les mêmes LLM étaient beaucoup plus positifs lorsqu'on leur demandait de commenter les Afro-Américains en général, proposant des termes tels qu'intelligent, brillant et passionné.

Malheureusement, ils ont également constaté un biais lorsqu'ils ont demandé aux LLM de décrire le type de travail que les auteurs des deux types d'articles pourraient effectuer pour gagner leur vie. Pour les auteurs des textes afro-américains en anglais, les LLM avaient tendance à les associer à des emplois qui nécessitent rarement un diplôme ou qui sont liés au sport ou au divertissement. Ils étaient également plus susceptibles de suggérer que ces auteurs soient reconnus coupables de divers crimes et soient plus souvent condamnés à la peine de mort.

L’équipe de recherche conclut en notant que les plus grands LLM ont tendance à montrer plus de préjugés négatifs envers les auteurs de textes anglais afro-américains que les plus petits modèles, ce qui, suggèrent-ils, indique que le problème est très profond.