Les femmes peuvent payer une « pénalité parentale » lorsque l'IA est utilisée lors du recrutement, selon une étude

Les femmes peuvent payer une « pénalité parentale » lorsque l’IA est utilisée lors du recrutement, selon une étude

Selon une nouvelle étude de la NYU Tandon School of Engineering, les écarts d’emploi liés à la maternité peuvent entraîner l’exclusion injuste des candidats des postes pour lesquels ils sont par ailleurs qualifiés.

Une équipe de recherche dirigée par Siddharth Garg, professeur agrégé de génie électrique et informatique à l’Institut, a examiné les préjugés dans les grands modèles linguistiques (LLM) – des systèmes d’IA avancés formés pour comprendre et générer le langage humain – lorsqu’ils sont utilisés dans les processus de recrutement.

L’équipe présentera ses résultats dans un article présenté à l’atelier NeurIPS 2023 R0-FoMo le 15 décembre. Akshaj Kumar Veldanda, Ph.D. candidat au Département de génie électrique et informatique, est le chercheur principal du journal.

Les algorithmes d’IA ont récemment fait l’objet d’un examen minutieux lorsqu’ils sont utilisés dans le domaine de l’emploi. Le décret du président Biden d’octobre 2023 sur l’IA a souligné la nécessité urgente de lutter contre les préjugés potentiels lorsque les employeurs s’appuient sur l’IA pour les aider à recruter. La ville de New York a promulgué une loi unique en son genre exigeant des audits réguliers pour évaluer la transparence et l’équité des décisions d’embauche algorithmiques.

« Notre recherche contribue à développer une méthodologie d’audit robuste capable de découvrir les biais d’embauche dans les LLM, aidant ainsi les chercheurs et les praticiens à intervenir avant que la discrimination ne se produise », a déclaré Garg. « Notre étude met au jour certains des préjugés que la loi de la ville de New York entend interdire. »

Dans l’étude, les chercheurs ont évalué la capacité de trois LLM populaires, à savoir ChatGPT (GPT-3.5), Bard et Claude, à ignorer les attributs personnels non pertinents tels que la race ou les affiliations politiques – des facteurs qu’il est à la fois juridiquement et éthiquement inapproprié de prendre en compte – tout en évaluer les curriculum vitae des candidats.

Pour ce faire, les chercheurs ont ajouté des « attributs sensibles » aux CV expérimentaux, notamment la race et le sexe signalés par les noms et prénoms associés à des hommes ou des femmes noirs ou blancs ; langage indiquant les périodes d’absence de l’emploi pour des tâches parentales, l’affiliation au parti démocrate ou républicain et la divulgation de l’état de grossesse.

Après avoir reçu les curriculum vitae, les LLM ont été confrontés à deux questions que les professionnels des ressources humaines pourraient raisonnablement utiliser lors de l’embauche : déterminer si les informations présentées sur un curriculum vitae l’alignent sur une catégorie d’emploi spécifique, telle que « enseignement » ou « construction » – et résumer les curriculum vitae pour inclure uniquement les informations pertinentes pour l’emploi.

Bien que la race et le sexe n’aient pas déclenché de résultats biaisés dans l’expérience de correspondance de CV, les autres attributs sensibles l’ont fait, ce qui signifie qu’au moins un des LLM les a pris en compte par erreur pour déterminer s’il incluait ou excluait un CV d’une catégorie d’emploi.

Les écarts d’emploi entre la maternité et la paternité ont donné lieu à des résultats biaisés prononcés. Claude a obtenu les pires résultats sur cet attribut, l’utilisant le plus souvent pour attribuer à tort un CV à l’intérieur ou à l’extérieur de sa catégorie d’emploi correcte. ChatGPT a également montré des résultats systématiquement biaisés sur cet attribut, bien que moins fréquemment que Claude.

« Les écarts d’emploi liés à la responsabilité parentale, fréquemment exercée par les mères de jeunes enfants, constituent un domaine peu étudié de biais potentiel à l’embauche », a déclaré Garg. « Cette recherche suggère que ces lacunes peuvent éliminer à tort des candidats par ailleurs qualifiés lorsque les employeurs s’appuient sur les LLM pour filtrer les candidats. »

L’affiliation politique et la grossesse ont également déclenché une classification incorrecte du CV, Claude ayant encore une fois obtenu les pires résultats et ChatGPT venant derrière.

Bard a obtenu les meilleurs résultats dans tous les domaines, démontrant un manque de biais remarquablement constant dans tous les attributs sensibles.

« Claude est le plus sujet aux biais dans notre étude, suivi de GPT-3.5. Mais la performance de Bard montre que les préjugés ne sont pas un fait accompli », a déclaré Garg. « Les LLM peuvent être formés pour résister aux biais sur des attributs rarement testés, bien que dans le cas de Bard, ils pourraient être biaisés sur des attributs sensibles qui ne figuraient pas dans cette étude. »

Lorsqu’il s’agit de produire des résumés de CV, les chercheurs ont constaté de fortes différences entre les modèles. GPT-3.5 exclut largement l’affiliation politique et le statut de grossesse des résumés générés, alors que Claude est plus susceptible d’inclure tous les attributs sensibles.

Bard refuse fréquemment de résumer mais est plus susceptible d’inclure des informations sensibles dans les cas où il génère des résumés. En général, la classification des catégories d’emploi sur les résumés (plutôt que sur les curriculum vitae complets) améliore l’équité de tous les LLM, y compris Claude, potentiellement parce que les résumés permettent à un modèle de s’occuper plus facilement des informations pertinentes.

« L’expérience sommaire souligne également la faiblesse relative de Claude par rapport aux autres LLM testés », a déclaré Garg. « Dans l’ensemble, cette étude nous dit que nous devons continuer à nous interroger sur le bien-fondé de l’utilisation des LLM dans l’emploi, en veillant à ce que nous demandions aux LLM de nous prouver qu’ils sont impartiaux, et non l’inverse. Mais nous devons également accepter la possibilité que les LLM puissent, en en fait, jouer un rôle utile et équitable dans l’embauche.

Méthodologie et notes

L’étude a commencé en utilisant un ensemble de données rendu public de 2 484 CV de livecareer.com, disponibles via Kaggle, couvrant 24 catégories d’emplois, qui ont été anonymisés pour supprimer les informations personnelles. En raison des limites des API de modèles linguistiques de pointe, l’évaluation s’est initialement concentrée sur un sous-ensemble de trois catégories d’emplois : technologies de l’information (TI), enseignant et construction.

Cela a donné un corpus de CV « brut » contenant 334 CV. Les chercheurs ont ensuite évalué les 24 catégories d’emplois pour Bard et Claude. Les chercheurs ont inspecté manuellement un échantillon de CV pour s’assurer qu’ils correspondaient à leurs catégories d’emploi réelles et qu’ils contenaient des informations pertinentes, telles que l’expérience et les diplômes.

Des attributs sensibles tels que la race, le sexe, les écarts d’emploi liés à la maternité/paternité, le statut de grossesse et l’affiliation politique ont été introduits dans les curriculum vitae en utilisant une approche spécifique, notamment celle de Sendhil Mullainathan, économiste comportemental et professeur à l’Université Harvard qui a produit des recherches fondamentales sur biais d’embauche utilisant des noms racistes stéréotypés de candidats à un emploi. Langue ajoutée pour d’autres attributs sensibles alignés sur les recommandations standard liées à la création de CV.

Pour les classifications des catégories d’emploi, les chercheurs posent un problème de classification binaire au LLM pour identifier si un CV appartient ou non à cette catégorie d’emploi. Les chercheurs ont ensuite évalué l’exactitude, les taux de vrais positifs et de vrais négatifs à l’aide d’étiquettes de vérité terrain de son ensemble de données.

Pour la tâche récapitulative, il a été demandé au LLM de résumer brièvement un curriculum vitae spécifique et de conserver les informations les plus importantes pour l’emploi. Les chercheurs ont évalué les biais en identifiant si les attributs sensibles étaient conservés et en utilisant des résumés pour la tâche de classification, imitant un scénario dans lequel le CV lui-même est trop long pour une analyse de classification. La classification des résumés améliore l’équité des LLM, y compris Claude.

Étant donné que ChatGPT, Bard et Anthropic (Claude) sont des modèles de boîte noire, ce qui signifie qu’ils arrivent à des conclusions ou à des décisions sans fournir d’explications sur la manière dont elles ont été obtenues, un examen approfondi des biais est entravé.

Pour mieux comprendre, les chercheurs ont mené une évaluation d’Alpaca, un modèle en boîte blanche qui fournit de telles explications. L’équipe a observé qu’Alpaga présente également des biais dans les tâches de classification. L’équipe a utilisé une méthode existante appelée Contrastive Input Decoding (CID) pour expliquer les biais au sein du modèle Alpaca. Grâce à cette approche, les chercheurs ont observé que :

  • Pour le congé de maternité, certaines réponses donnaient le motif de rejet suivant : « Inclure des informations personnelles sur le congé de maternité n’est pas pertinent pour l’emploi et pourrait être considéré comme un handicap. »
  • Pour le statut de grossesse, le CID a rejeté les candidatures parce que « Elle est enceinte » ou « À cause de sa grossesse ».
  • Pour l’affiliation politique, l’analyse du CID a indiqué que certains candidats ne convenaient pas car « le candidat est membre du parti républicain, ce qui peut constituer un conflit d’intérêts pour certains employeurs ».

Il est important de noter que le CID ne propose ces raisons que parfois, potentiellement parce que le CID choisit l’une des nombreuses raisons potentielles de rejet. Néanmoins, ces résultats suggèrent que le CID pourrait être un outil efficace pour analyser les biais, même sur des modèles plus grands, compte tenu de l’accès à la boîte blanche.

La recherche est publiée sur le arXiv serveur de préimpression.