L’outil de détection des biais de l’IA promet de lutter contre la discrimination dans les modèles

Les modèles d'IA générative comme ChatGPT sont formés à l'aide de grandes quantités de données obtenues à partir de sites Web, de forums, de médias sociaux et d'autres sources en ligne ; par conséquent, leurs réponses peuvent contenir des préjugés préjudiciables ou discriminatoires.

Des chercheurs de l'Universitat Oberta de Catalunya (UOC) et de l'Université du Luxembourg ont développé LangBiTe, un programme open source qui évalue si ces modèles sont exempts de biais et conformes à la législation en matière de non-discrimination.

« LangBiTe n'a pas été créé pour des raisons commerciales, mais plutôt pour fournir une ressource utile à la fois aux créateurs d'outils d'IA générative et aux utilisateurs non techniques ; il devrait contribuer à identifier et à atténuer les biais dans les modèles et, à terme, aider à créer de meilleures IA à l'avenir. « , a expliqué Sergio Morales, chercheur au sein du groupe Systèmes, logiciels et modèles du Som Research Lab de l'Institut interdisciplinaire Internet de l'UOC (IN3), dont le doctorat. la thèse est basée sur cet outil.

La thèse a été encadrée par Robert Clarisó, membre de la Faculté d'Informatique, Multimédia et Télécommunications de l'UOC et chercheur principal du Som Research Lab, et par Jordi Cabot, chercheur à l'Université du Luxembourg. La recherche est publiée dans la revue Actes de la 27e conférence internationale ACM/IEEE sur les langages et systèmes d'ingénierie pilotés par modèles.

Au-delà de la discrimination sexuelle

LangBiTe diffère des autres programmes similaires en raison de sa portée et, selon les chercheurs, il s'agit de l'outil « le plus complet et le plus détaillé » actuellement disponible. « La plupart des expériences se concentraient sur la discrimination sexuelle entre hommes et femmes, sans tenir compte d'autres aspects éthiques importants ou des minorités vulnérables. Avec LangBiTe, nous avons analysé dans quelle mesure certains modèles d'IA peuvent répondre à certaines questions de manière raciste, avec une vision clairement biaisée. point de vue politique, ou à connotation homophobe ou transphobe », ont-ils expliqué.

Les chercheurs ont également souligné que, même si d'autres projets classifiaient les modèles d'IA en fonction de diverses dimensions, leur approche éthique était « trop superficielle, sans aucun détail sur les aspects spécifiques évalués ».

Un programme flexible et adaptable

Le nouveau programme permet aux utilisateurs d'analyser si une application ou un outil intégrant des fonctions basées sur des modèles d'IA est adapté aux exigences éthiques spécifiques de chaque institution ou organisation ou aux communautés d'utilisateurs. Les chercheurs ont expliqué que « LangBiTe ne prescrit aucun cadre moral spécifique. Ce qui est éthique ou non dépend en grande partie du contexte et de la culture de l'organisation qui développe et intègre des fonctionnalités basées sur des modèles d'IA génératifs dans son produit.

« En tant que telle, notre approche permet aux utilisateurs de définir leurs propres préoccupations éthiques et leurs critères d'évaluation, et d'adapter l'évaluation des préjugés à leur contexte culturel et à leur environnement réglementaire particuliers. »

À cette fin, LangBiTe comprend des bibliothèques contenant plus de 300 invites pouvant être utilisées pour révéler les biais dans les modèles d'IA, chaque invite se concentrant sur une préoccupation éthique spécifique : âgisme, LGBTIQA+phobie, préférences politiques, préjugés religieux, racisme, sexisme ou xénophobie. .

Chacune de ces invites est associée à des réponses pour évaluer si la réponse du modèle est biaisée. Il comprend également des modèles d'invite qui peuvent être modifiés, permettant à l'utilisateur d'élargir et d'enrichir la collection originale avec de nouvelles questions ou préoccupations éthiques.

Bien plus que ChatGPT

LangBiTe donne actuellement accès à des modèles propriétaires OpenAI (GPT-3.5, GPT-4) et à des dizaines d'autres modèles d'IA générative disponibles sur HuggingFace et Replicate, qui sont des plateformes permettant d'interagir avec une grande variété de modèles, notamment ceux de Google et Meta. « De plus, tout développeur qui le souhaite peut étendre la plateforme LangBiTe pour évaluer d'autres modèles, y compris le sien », a ajouté Morales.

Le programme permet également aux utilisateurs de voir à tout moment les différences entre les réponses des différentes versions du même modèle et entre les modèles de différents fournisseurs. » Par exemple, nous avons constaté que la version de ChatGPT 4 disponible avait un taux de réussite au test contre les préjugés sexistes de 97 %, ce qui était supérieur à celui obtenu par la version de ChatGPT 3.5 disponible à l'époque, qui avait eu un succès. taux de 42%.

« A cette même date, nous avons constaté que pour le modèle Flan-T5 de Google, plus il était grand, moins il était biaisé en termes de sexe, de religion et de nationalité », précise le chercheur.

Analyse multilingue et multimédia

Les modèles d'IA les plus populaires ont été créés sur la base de contenus en anglais, mais des projets régionaux sont en cours avec des modèles formés dans d'autres langues telles que le catalan et l'italien. Les chercheurs de l'UOC ont également inclus la fonction d'évaluation des outils dans différentes langues, ce qui signifie que les utilisateurs peuvent « détecter si un modèle est biaisé en fonction de la langue qu'ils utilisent pour leurs requêtes », a déclaré Morales.

Ils travaillent également à pouvoir analyser des modèles qui génèrent des images, tels que Stable Diffusion, DALL·E et Midjourney. « Les applications actuelles de ces outils vont de la production de livres pour enfants au graphisme de contenus d'actualité, qui peuvent propager des stéréotypes déformants et/ou négatifs que la société souhaite évidemment éradiquer.

« Nous espérons que le futur LangBiTe sera utile pour identifier et corriger tous les types de biais dans les images générées par ces modèles », a déclaré le chercheur de l'UOC.

Un outil pour se conformer à la loi européenne sur l’IA

Les fonctionnalités de cet outil peuvent aider les utilisateurs à se conformer à la récente loi européenne sur l'IA, qui vise à garantir que les nouveaux systèmes d'IA favorisent l'égalité d'accès, l'égalité des sexes et la diversité culturelle, et que leur utilisation ne compromet pas les droits de non-discrimination stipulés par la loi. Union européenne et les lois nationales de ses États membres.

Le programme a déjà été adopté par des institutions dont l'Institut luxembourgeois des sciences et technologies (LIST), qui a intégré LangBiTe pour évaluer plusieurs modèles d'IA générative populaires.