Se concentrer sur les origines des biais dans les grands modèles de langage

Lorsque les modèles d’intelligence artificielle examinent des centaines de gigaoctets de données de formation pour apprendre les nuances du langage, ils s’imprègnent également des préjugés tissés dans les textes.

Les chercheurs en informatique de Dartmouth réfléchissent à des moyens de cibler les parties du modèle qui codent ces biais, ouvrant la voie à leur atténuation, voire à leur suppression totale.

Dans un article récent publié dans le Actes de la conférence 2023 sur les méthodes empiriques dans le traitement du langage naturel, co-auteurs Weicheng Ma, titulaire d’un doctorat en informatique. candidat à la Guarini School of Graduate and Advanced Studies, et Soroush Vosoughi, professeur adjoint d’informatique, examinent comment les stéréotypes sont codés dans de grands modèles de langage pré-entraînés.

Un grand modèle de langage, ou réseau neuronal, est un algorithme d’apprentissage en profondeur conçu pour traiter, comprendre et générer du texte et d’autres contenus lorsqu’il est formé sur d’énormes ensembles de données.

Les modèles pré-entraînés contiennent des préjugés, comme des stéréotypes, explique Vosoughi. Celles-ci peuvent être généralement positives (suggérant, par exemple, qu’un groupe particulier possède certaines compétences) ou négatives (suggérant, par exemple, qu’une personne occupe une certaine profession en fonction de son sexe).

Et les modèles d’apprentissage automatique sont sur le point d’imprégner la vie quotidienne de diverses manières. Ils peuvent aider les responsables du recrutement à passer au crible des piles de CV, à faciliter des approbations ou des rejets plus rapides des prêts bancaires et à fournir des conseils lors des décisions de libération conditionnelle.

Mais des stéréotypes inhérents fondés sur la démographie engendreraient des résultats injustes et indésirables. Pour atténuer ces effets, « nous nous demandons si nous pouvons faire quelque chose contre les stéréotypes même après qu’un modèle ait été formé », explique Vosoughi.

Les chercheurs sont partis de l’hypothèse selon laquelle les stéréotypes, comme d’autres caractéristiques et modèles linguistiques, sont codés dans des parties spécifiques du modèle de réseau neuronal connues sous le nom de « têtes d’attention ». Ceux-ci sont semblables à un groupe de neurones ; ils permettent à un programme d’apprentissage automatique de mémoriser plusieurs mots qui lui sont fournis en entrée, entre autres fonctions, dont certaines ne sont pas encore entièrement comprises.

Ma, Vosoughi et leurs collaborateurs ont créé un ensemble de données chargé de stéréotypes et l’ont utilisé pour ajuster à plusieurs reprises 60 modèles différents pré-entraînés en grand langage, notamment BERT et T5. En amplifiant les stéréotypes du modèle, l’ensemble de données a agi comme un détecteur, mettant en lumière les têtes d’attention qui ont fait le gros du travail dans l’encodage de ces biais.

Dans leur article, les chercheurs montrent que l’élimination des pires contrevenants réduit considérablement les stéréotypes dans les grands modèles linguistiques, sans affecter de manière significative leurs capacités linguistiques.

« Notre découverte bouleverse la vision traditionnelle selon laquelle les progrès de l’IA et du traitement du langage naturel nécessitent une formation approfondie ou des interventions algorithmiques complexes », explique Ma. Puisque la technique n’est pas intrinsèquement spécifique à un langage ou à un modèle, elle serait largement applicable, selon Ma.

De plus, ajoute Vosoughi, l’ensemble de données peut être modifié pour révéler certains stéréotypes tout en laissant d’autres intacts : « il ne s’agit pas d’une solution universelle ».

Ainsi, un modèle de diagnostic médical, dans lequel les différences basées sur l’âge ou le sexe peuvent être importantes pour l’évaluation des patients, utiliserait une version différente de l’ensemble de données que celle utilisée pour éliminer les biais d’un modèle qui sélectionne les candidats potentiels.

La technique ne fonctionne que lorsqu’il y a accès au modèle entièrement formé et ne s’appliquera pas aux modèles de boîte noire, tels que le chatbot d’OpenAI, ChatGPT, dont le fonctionnement interne est invisible pour les utilisateurs et les chercheurs.

L’adaptation de l’approche actuelle aux modèles de boîte noire est la prochaine étape immédiate, explique Ma.