ChatGPT a un parti pris contre les CV dont les informations d'identification impliquent un handicap, mais il peut s'améliorer
Alors qu'elle cherchait des stages de recherche l'année dernière, Kate Glazko, étudiante diplômée de l'Université de Washington, a remarqué que des recruteurs publiaient en ligne qu'ils avaient utilisé ChatGPT d'OpenAI et d'autres outils d'intelligence artificielle pour résumer les CV et classer les candidats. La sélection automatisée est monnaie courante lors du recrutement depuis des décennies. Pourtant, Glazko, doctorant à la Paul G. Allen School of Computer Science & Engineering de l'UW, étudie comment l'IA générative peut reproduire et amplifier les préjugés du monde réel, tels que ceux à l'encontre des personnes handicapées. Comment un tel système, se demandait-elle, pourrait-il classer les curriculum vitae qui impliquaient qu'une personne souffrait d'un handicap ?
Dans une nouvelle étude, des chercheurs de l'UW ont découvert que ChatGPT classait systématiquement les CV avec des distinctions et des diplômes liés au handicap, tels que le « Tom Wilson Disability Leadership Award », à un niveau inférieur aux mêmes CV sans ces honneurs et diplômes. Lorsqu’on lui a demandé d’expliquer le classement, le système a craché des perceptions biaisées des personnes handicapées. Par exemple, il affirmait qu'un CV avec un prix de leadership dans l'autisme mettait « moins l'accent sur les rôles de leadership », ce qui implique le stéréotype selon lequel les personnes autistes ne sont pas de bons leaders.
Mais lorsque les chercheurs ont personnalisé l’outil avec des instructions écrites lui ordonnant de ne pas être capacitiste, l’outil a réduit ce biais pour tous les handicaps testés sauf un. Cinq des six handicaps implicites – la surdité, la cécité, la paralysie cérébrale, l'autisme et le terme général « handicap » – se sont améliorés, mais seulement trois se sont classés mieux que les curriculum vitae qui ne mentionnaient pas le handicap.
L'équipe a présenté ses conclusions le 5 juin lors de la conférence ACM 2024 sur l'équité, la responsabilité et la transparence à Rio de Janeiro.
« Les classements utilisant l'IA commencent à proliférer, mais il n'y a pas beaucoup de recherches pour déterminer si elle est sûre et efficace », a déclaré Glazko, l'auteur principal de l'étude. « Pour un demandeur d'emploi handicapé, lorsque vous soumettez un curriculum vitae, la question se pose toujours de savoir si vous devez inclure des diplômes en matière de handicap. Je pense que les personnes handicapées considèrent cela même lorsque les évaluateurs sont des humains. »
Les chercheurs ont utilisé le curriculum vitae (CV) accessible au public de l'un des auteurs de l'étude, qui comptait environ 10 pages. L'équipe a ensuite créé six CV améliorés, chacun impliquant un handicap différent en incluant quatre diplômes liés au handicap : une bourse ; un prix; un siège au panel sur la diversité, l’équité et l’inclusion (DEI) ; et l'adhésion à une organisation étudiante.
Les chercheurs ont ensuite utilisé le modèle GPT-4 de ChatGPT pour classer ces CV améliorés par rapport à la version originale pour une véritable offre d'emploi de « chercheur étudiant » dans une grande société de logiciels basée aux États-Unis. Ils ont effectué chaque comparaison 10 fois ; dans 60 essais, le système a classé en premier les CV améliorés, qui étaient identiques à l'exception du handicap implicite, seulement dans un quart des cas.
« Dans un monde juste, le CV amélioré devrait être classé en premier à chaque fois », a déclaré l'auteur principal Jennifer Mankoff, professeur à l'UW de l'Allen School. « Je ne vois pas d'emploi dans lequel quelqu'un qui a été reconnu pour ses compétences en leadership, par exemple, ne devrait pas être classé avant quelqu'un ayant le même parcours et qui ne l'a pas été. »
Lorsque les chercheurs ont demandé à GPT-4 d’expliquer le classement, ses réponses ont fait preuve d’un capacitisme explicite et implicite. Par exemple, il a noté qu'un candidat souffrant de dépression avait « une concentration supplémentaire sur le DEI et les défis personnels », ce qui « nuisait aux aspects techniques et axés sur la recherche de base du rôle ».
« Certaines descriptions de GPT coloreraient l'intégralité du CV d'une personne en fonction de son handicap et prétendraient que l'implication dans le DEI ou le handicap pourrait potentiellement nuire à d'autres parties du CV », a déclaré Glazko. « Par exemple, il a halluciné le concept de 'défis' dans la comparaison des CV sur la dépression, même si les 'défis' n'étaient pas du tout mentionnés. On pouvait donc voir certains stéréotypes émerger. »
Compte tenu de cela, les chercheurs se demandaient si le système pouvait être formé pour être moins biaisé. Ils se sont tournés vers l'outil GPTs Editor, qui leur a permis de personnaliser GPT-4 avec des instructions écrites (aucun code requis). Ils ont demandé à ce chatbot de ne pas faire preuve de préjugés capacitaires et de travailler plutôt avec la justice pour les personnes handicapées et les principes DEI.
Ils ont recommencé l’expérience, cette fois en utilisant le chatbot nouvellement formé. Dans l'ensemble, ce système a classé les CV améliorés plus haut que le CV témoin 37 fois sur 60. Cependant, pour certains handicaps, les améliorations étaient minimes ou absentes : le CV de l'autisme s'est classé premier seulement trois fois sur 10, et le CV de la dépression seulement deux fois. (inchangé par rapport aux résultats GPT-4 d'origine).
« Les gens doivent être conscients des biais du système lorsqu'ils utilisent l'IA pour ces tâches du monde réel », a déclaré Glazko. « Sinon, un recruteur utilisant ChatGPT ne peut pas effectuer ces corrections, ni être conscient que, même avec des instructions, des préjugés peuvent persister. »
Les chercheurs notent que certaines organisations, telles que ourability.com et inclusivement.com, s'efforcent d'améliorer les résultats des demandeurs d'emploi handicapés, qui sont confrontés à des préjugés, que l'IA soit ou non utilisée pour l'embauche. Ils soulignent également que des recherches supplémentaires sont nécessaires pour documenter et remédier aux préjugés de l’IA. Ceux-ci incluent le test d’autres systèmes, tels que Gemini de Google et Llama de Meta ; y compris d'autres handicaps ; étudier les intersections des préjugés du système contre les handicaps avec d'autres attributs tels que le sexe et la race ; explorer si une personnalisation plus poussée pourrait réduire les préjugés de manière plus cohérente entre les handicaps ; et voir si la version de base de GPT-4 peut être rendue moins biaisée.
« Il est très important que nous étudiions et documentions ces préjugés », a déclaré Mankoff. « Nous avons beaucoup appris et nous espérons contribuer à une conversation plus large – non seulement concernant le handicap, mais aussi d'autres identités minoritaires – visant à garantir que la technologie est mise en œuvre et déployée de manière équitable et juste. »
Les co-auteurs supplémentaires étaient Yusuf Mohammed, étudiant de premier cycle à l'UW à l'Allen School ; Venkatesh Potluri, doctorant UW à l'école Allen ; et Ben Kosa, qui a réalisé cette recherche en tant qu'étudiant de premier cycle à l'UW à l'Allen School et est un nouveau doctorant à l'Université du Wisconsin-Madison.