Un nouvel outil trouve un biais dans un modèle d’IA générative de pointe
Les outils d’intelligence artificielle générative text-to-image (T2I) sont des outils de plus en plus puissants et répandus qui peuvent créer presque n’importe quelle image basée sur seulement quelques mots saisis. L’IA générative T2I peut créer des photos et des vidéos d’un réalisme convaincant, qui sont de plus en plus utilisées à des fins multiples, de l’art à la campagne politique.
Cependant, les modèles algorithmiques qui alimentent ces outils sont formés sur des données humaines et peuvent reproduire des biais humains dans les images qu’ils produisent, tels que des biais liés au sexe et au teint de la peau. Ces préjugés peuvent nuire aux populations marginalisées, renforcer les stéréotypes et conduire potentiellement à la discrimination.
Pour remédier à ces biais implicites, le professeur adjoint d’informatique et d’ingénierie Xin (Eric) Wang et une équipe de chercheurs de Baskin Engineering à l’UC Santa Cruz ont créé un outil appelé Text to Image Association Test, qui fournit une mesure quantitative des biais humains complexes. intégré dans les modèles T2I, évaluant les biais sur des dimensions telles que le sexe, la race, la carrière et la religion. Ils ont utilisé cet outil pour identifier et quantifier les biais dans le modèle génératif de pointe Stable Diffusion.
L’outil est détaillé dans un article pour la conférence 2023 de l’Association for Computational Linguistics (ACL) et est disponible pour une utilisation dans une version de démonstration.
« Je pense que les propriétaires de modèles et les utilisateurs se soucient de ce problème, » a déclaré Jialu Wang, titulaire d’un doctorat en informatique et en ingénierie de l’UCSC. étudiant et le premier auteur sur le papier. « Si l’utilisateur appartient à un groupe non privilégié, il se peut qu’il ne veuille pas voir uniquement le groupe privilégié reflété dans les images qu’il génère. »
Pour utiliser l’outil, un utilisateur doit indiquer au modèle de produire une image pour une invite neutre, par exemple « enfant qui étudie les sciences. » Ensuite, l’utilisateur entre des invites spécifiques au sexe, telles que « fille qui étudie les sciences » et « garçon étudiant les sciences. » Ensuite, l’outil calcule la distance entre les images générées avec l’invite neutre et chacune des invites spécifiques. Cette différence entre ces deux distances est une mesure quantitative du biais.
À l’aide de leur outil, l’équipe de recherche a découvert que le modèle génératif de pointe Stable Diffusion reproduit et amplifie à la fois les biais humains dans les images qu’il produit. L’outil teste l’association entre deux concepts, tels que la science et les arts, à deux attributs, tels que masculin et féminin. Il donne ensuite un score d’association entre le concept et l’attribut et une valeur pour indiquer le degré de confiance de l’outil dans ce score.
L’équipe a utilisé son outil pour tester si le modèle associe six ensembles de concepts opposés à des attributs positifs ou négatifs. Les concepts qu’ils ont testés étaient les suivants : fleurs et insectes, instruments de musique et armes, européens américains et afro-américains, peau claire et peau foncée, hétérosexuels et homosexuels, et judaïsme et christianisme. Pour la plupart, le modèle a fait des associations selon des modèles stéréotypés. Cependant, le modèle associait la peau foncée comme agréable et la peau claire comme désagréable, ce qui a surpris les chercheurs comme l’un des rares résultats en opposition aux stéréotypes courants.
De plus, ils ont constaté que le modèle associait plus étroitement la science aux hommes et l’art plus étroitement aux femmes, et associait plus étroitement les carrières aux hommes et la famille plus étroitement aux femmes.
Dans le passé, les techniques d’évaluation des biais dans les modèles T2I nécessitaient que les chercheurs annotent les résultats reçus des modèles lors de la saisie d’une invite neutre. Par exemple, un chercheur peut saisir une invite non sexiste telle que « enfant qui étudie les sciences » et étiquetez si le modèle produit des images de garçons par rapport aux filles. Mais le travail nécessaire à ce processus d’annotation est coûteux et pourrait potentiellement être inexact, et est souvent limité aux seuls préjugés sexistes.
« Nous voulons nous débarrasser de ce processus d’annotation humaine et proposer un outil automatique pour évaluer ces biais, sans travail fastidieux, » dit Xin Wang.
De plus, contrairement à d’autres, l’outil d’évaluation des biais de l’équipe UCSC prend en compte les aspects de l’arrière-plan de l’image tels que les couleurs et la chaleur.
Les chercheurs ont basé leur outil sur le test d’association implicite, un test bien connu en psychologie sociale utilisé pour évaluer les préjugés et les stéréotypes humains. Ce test évalue à quel point les gens associent des concepts tels que « médecins » ou « famille » avec des attributs tels que « Hommes » ou « femmes. »
Au-delà de l’évaluation et de l’analyse des biais dans les outils existants tels que Stable Diffusion et Midjourney, l’équipe envisage que l’outil permettra aux ingénieurs logiciels d’obtenir des mesures plus précises des biais dans leurs modèles pendant la phase de développement et de suivre leurs efforts pour corriger ces biais.
« Avec une mesure quantitative, les gens peuvent travailler à atténuer ces biais et utiliser notre outil pour quantifier leurs progrès en le faisant, » dit Xin Wang.
L’équipe a déclaré avoir reçu de nombreux commentaires positifs d’autres chercheurs lors de la présentation de ce travail à la conférence ACL.
« De nombreux membres de la communauté ont montré un grand intérêt pour ce travail, » dit Xin Wang. « Certains chercheurs ont immédiatement partagé ce travail au sein de leurs groupes et m’ont demandé des précisions. »
À l’avenir, l’équipe prévoit de proposer des méthodes suggérées pour atténuer ces biais, à la fois dans la formation de nouveaux modèles à partir de zéro, ou pour éliminer les biais des modèles existants lors des ajustements.
Les chercheurs impliqués dans ce projet comprennent également l’étudiant de premier cycle Xinyue Gabby Liu, Ph.D. l’étudiant Zonglin Di et le professeur adjoint d’informatique et d’ingénierie Yang Liu.