Dans le « Far West » des chatbots IA, les préjugés subtils liés à la race et à la caste restent souvent incontrôlés

Récemment, LinkedIn a annoncé son Hiring Assistant, un « agent » d'intelligence artificielle qui effectue les parties les plus répétitives du travail des recruteurs, notamment l'interaction avec les candidats avant et après les entretiens. Le bot de LinkedIn est l'exemple le plus médiatisé d'un groupe croissant d'outils, tels que Tombo.ai et Moonhub.ai, qui déploient de grands modèles linguistiques pour interagir avec les demandeurs d'emploi.

Étant donné que l’embauche est conséquente – par rapport, par exemple, à un système qui recommande des chaussettes – des chercheurs de l’Université de Washington ont cherché à explorer comment les préjugés pourraient se manifester dans de tels systèmes. Bien que de nombreux grands modèles de langage (LLM) de premier plan, tels que ChatGPT, disposent de protections intégrées pour détecter les préjugés manifestes tels que les insultes, des biais systémiques peuvent encore survenir subtilement dans les interactions des chatbots. De plus, comme de nombreux systèmes sont créés dans les pays occidentaux, leurs garde-fous ne reconnaissent pas toujours les concepts sociaux non occidentaux, comme celui des castes en Asie du Sud.

Les chercheurs se sont penchés sur les méthodes des sciences sociales pour détecter les préjugés et ont développé un système à sept mesures, qu'ils ont utilisé pour tester huit LLM différents pour détecter les préjugés liés à la race et à la caste lors de simulations de sélection d'emploi. Ils ont constaté que sept des huit modèles généraient une quantité importante de textes biaisés lors des interactions, en particulier lors des discussions sur la caste. Les modèles open source s’en sortent bien moins bien que deux modèles propriétaires ChatGPT.

L'équipe a présenté ses résultats le 14 novembre lors de la conférence sur les méthodes empiriques de traitement du langage naturel à Miami.

« Les outils disponibles pour détecter les réactions néfastes fonctionnent très bien lorsque les préjudices sont manifestes et courants dans un contexte occidental – si un message comprend une insulte raciste, par exemple », a déclaré l'auteur principal Tanu Mitra, professeur agrégé à l'Université de Washington. École.

« Mais nous voulions étudier une technique capable de mieux détecter les dommages cachés. Et nous voulions le faire à travers une gamme de modèles parce que c'est presque comme si nous étions dans le Far West des LLM. Il existe des modèles que tout le monde peut utiliser pour construire un démarrer et accomplir une tâche sensible, comme l'embauche, mais nous avons peu d'idées sur les garde-fous mis en place par un modèle donné.

Pour catégoriser ces préjudices cachés, l’équipe s’est appuyée sur les théories des sciences sociales pour créer le cadre des préjudices cachés et des menaces sociales (CHAST). Il comprend sept mesures, parmi lesquelles les « menaces liées aux compétences », une manière de saper les compétences d'un groupe, ou les « menaces symboliques » qui surviennent lorsque les membres d'un groupe considèrent quelqu'un d'extérieur comme une menace pour ses valeurs, ses normes ou sa morale.

L'équipe a ensuite disposé de huit modèles linguistiques, dont deux modèles ChatGPT d'OpenAI et deux modèles open source Llama de Meta, pour générer 1 920 conversations autour de la race (noir et blanc) et de la caste (Brahmin, une caste supérieure, et Dalit, une caste inférieure). ). Les discussions imitent des discussions entre collègues sur l'embauche pour quatre professions : développeur de logiciels, médecin, infirmière et enseignant.

Ensemble, l'équipe a annoté 100 de ces conversations à l'aide de CHAST et a formé un LLM avec cet ensemble annoté pour détecter les préjudices cachés dans les conversations restantes.

« Nous avons généré ces conversations avec les modèles dans leurs paramètres par défaut », a déclaré le co-auteur principal Preetam Dammu, doctorant à l'Université de l'Information. « De nombreuses études utilisent des « attaques rapides » pour tenter de tromper le modèle et de le forcer à générer du contenu nuisible. Mais ce n'est pas ainsi que la plupart des gens l'utiliseraient pour prendre des décisions d'embauche. Au lieu de cela, nous avons simplement évoqué ces sujets sensibles et laissé tomber. c'est aux LLM de terminer les conversations, et nous constatons toujours que la plupart génèrent beaucoup de contenus préjudiciables.

Dans l’ensemble, l’équipe a constaté que 69 % des conversations autour de la caste et 48 % de l’ensemble des conversations contenaient du contenu préjudiciable. Par exemple, un modèle n'a pas répondu à la mesure de la menace liée aux compétences lorsqu'il a écrit : « Vous savez, notre équipe est majoritairement blanche et il pourrait avoir du mal à communiquer avec eux. » Un autre modèle n'a pas réussi à mesurer la menace de dénigrement en écrivant : « Ouais, bien sûr. Prenons un tas de jetons de diversité et arrêtons-nous. »

Les huit modèles n’ont pas généré de tels préjudices de la même manière. Les deux modèles ChatGPT ont généré des conversations nettement moins nuisibles, en particulier sur le thème de la race, que les six autres modèles open source. Mais même les modèles ChatGPT n’étaient pas équivalents : l’un ne générait aucun contenu préjudiciable sur la race, mais nettement plus sur la caste, tandis que l’autre générait relativement peu de contenu sur l’un ou l’autre.

« Nous espérons que de tels résultats pourront éclairer les politiques », a déclaré le co-auteur principal Hayoung Jung, étudiant à la maîtrise de l'UW à la Paul G. Allen School of Computer Science & Engineering. « Pour réglementer ces modèles, nous devons disposer de moyens approfondis pour les évaluer afin de garantir qu'ils sont sans danger pour tout le monde. L'accent a été mis sur le contexte occidental, comme la race et le sexe, mais il existe tellement d'autres richesses culturelles. concepts dans le monde, en particulier dans les pays du Sud, qui nécessitent plus d’attention. »

L'équipe a déclaré que cette recherche devrait être élargie pour examiner davantage de professions et de concepts culturels. Il devrait également être élargi pour voir comment les modèles traitent les identités intersectionnelles.