Les modèles d’IA entraînés présentent un biais acquis en matière de handicap, selon les chercheurs

Les modèles d’IA entraînés présentent un biais acquis en matière de handicap, selon les chercheurs

Un nombre croissant d’organisations utilisent des outils d’analyse des sentiments issus de services d’intelligence artificielle (IA) tiers pour classer de grandes quantités de texte en phrases négatives, neutres ou positives pour des applications sociales allant des soins de santé à l’élaboration de politiques. Ces outils, cependant, sont motivés par des associations savantes qui contiennent souvent des préjugés contre les personnes handicapées, selon des chercheurs du Penn State College of Information Sciences and Technology (IST).

Dans l’article « Automated Ableism: An Exploration of Explicit Disability Biases in Artificial Intelligence as a Service (AIaaS) Sentiment and Toxicity Analysis Models », les chercheurs ont détaillé une analyse des préjugés à l’encontre des personnes handicapées contenus dans les algorithmes de traitement du langage naturel (NLP) et modèles qu’ils ont testés.

Les travaux, dirigés par Shomir Wilson, professeur adjoint à l’IST et directeur du Human Language Technologies Lab, ont reçu le prix du meilleur article court de l’atelier 2023 sur le traitement du langage naturel digne de confiance lors de la 61e réunion annuelle de l’Association for Computation Linguistics, qui s’est tenue en juillet. 9-14 à Toronto, Canada.

« Nous voulions examiner si la nature d’une discussion ou les associations apprises d’un modèle PNL contribuaient aux préjugés liés au handicap », a déclaré Pranav Narayanan Venkit, doctorant au Collège de l’IST et premier auteur de l’article. « C’est important parce que les organisations du monde réel qui externalisent leurs besoins en IA peuvent, sans le savoir, déployer des modèles biaisés. »

Les chercheurs ont défini les préjugés liés au handicap comme le fait de traiter une personne handicapée de manière moins favorable qu’une personne non handicapée dans des circonstances similaires et les préjugés explicites comme l’association intentionnelle de stéréotypes à l’égard d’une population spécifique.

Selon les chercheurs, un nombre croissant d’organisations utilisent l’AIaaS, ou Intelligence artificielle en tant que service, pour des outils de PNL faciles à utiliser qui impliquent peu d’investissement ou de risque pour l’organisation. Parmi ces outils figurent des analyses de sentiments et de toxicité qui permettent à une organisation de catégoriser et de classer de grands volumes de données textuelles en phrases négatives, neutres ou positives.

L’analyse des sentiments est la technique PNL permettant d’extraire des informations subjectives (pensées, attitudes, émotions et sentiments) à partir de publications sur les réseaux sociaux, d’avis de produits, d’analyses politiques ou d’enquêtes d’études de marché. Les modèles de détection de la toxicité recherchent les contenus incendiaires, tels que les discours de haine ou les propos offensants, susceptibles de nuire à un échange ou à une conversation civile.

Les chercheurs ont mené une étude en deux étapes sur les biais liés au handicap dans les outils de PNL. Ils ont d’abord étudié les conversations sur les réseaux sociaux liées aux personnes handicapées, en particulier sur Twitter et Reddit, pour mieux comprendre comment les préjugés se propagent dans les contextes sociaux réels.

Ils ont exploré des articles de blog et des commentaires sur une période d’un an qui traitaient spécifiquement des points de vue des personnes handicapées ou contenaient les termes ou hashtags « handicap » ou « handicapé ». Les résultats ont été filtrés et catégorisés, puis analysés statistiquement avec des modèles populaires d’analyse des sentiments et de la toxicité pour quantifier tout préjugé et préjudice lié au handicap présents dans les conversations.

« Les déclarations faisant référence aux personnes handicapées par rapport à d’autres catégories de contrôle ont reçu des scores nettement plus négatifs et toxiques que les déclarations d’autres catégories de contrôle », a déclaré l’auteur Mukund Srinath, doctorant au Collège de l’IST.

« Nous voulions vérifier si ces biais provenaient de discussions entourant des conversations concernant les personnes handicapées ou d’associations faites au sein de modèles d’analyse des sentiments et de la toxicité formés et avons constaté que la principale source de biais était diffusée à partir des modèles plutôt que du contexte réel de la conversation. »

Les chercheurs ont ensuite créé le corpus Bias Identification Test in Sentiment (BITS) pour aider quiconque à identifier les préjugés explicites liés au handicap dans tous les modèles d’analyse des sentiments et de détection de toxicité AIaaS, selon Venkit. Ils ont utilisé le corpus pour montrer comment les outils populaires d’analyse des sentiments et de la toxicité contiennent des biais explicites liés au handicap.

« Tous les modèles publics que nous avons étudiés présentaient des préjugés significatifs contre le handicap », a déclaré Venkit. « Il y avait une tendance problématique à classer les phrases comme négatives et toxiques sur la seule base de la présence de termes liés au handicap, tels que « aveugle », sans tenir compte du sens contextuel, démontrant un préjugé explicite contre les termes associés au handicap. »

Selon les chercheurs, l’identification de biais explicites dans les modèles à grande échelle peut nous aider à comprendre les dommages sociaux causés par les modèles de formation d’un point de vue dominant et biaisé, tant pour les développeurs que pour les utilisateurs.

« Presque tout le monde, à un moment de sa vie, souffre d’un handicap qui pourrait conduire à sa marginalisation sociale », a déclaré Venkit. « Ce travail représente une étape importante vers l’identification et la résolution des préjugés liés au handicap dans les modèles d’analyse des sentiments et de la toxicité et vers la sensibilisation à la présence de biais dans l’AIaaS. »