La nouvelle technique de «taille» est prometteuse pour réduire les biais d'IA sans nuire aux performances

Une méthode connue sous le nom de «élagage du modèle» peut être utilisée pour identifier et éliminer les neurones qui contribuent systématiquement aux réponses biaisées, affirment que les chercheurs de la Stanford Law School et de l’Institut Stanford pour l’IA centré sur l’homme.

Une étude récemment publiée par le professeur de droit de Stanford Julian Nyarko et les co-auteurs constatent que les biais raciaux et autres présentés par les modèles de grande langue (LLM) peuvent être « élagués », mais parce que les biais sont très spécifiques au contexte, il y a des limites à tenir Les développeurs de modèles d’IA (comme OpenAI ou Google Vision) sont responsables d’un comportement nocif, étant donné que ces entreprises ne pourront pas proposer une solution unique.

Au lieu de cela, les chercheurs ont constaté qu’il serait plus efficace du point de vue juridique et politique pour tenir responsable les entreprises qui déploient les modèles dans un cas d’utilisation particulier – par exemple, un détaillant en ligne qui utilise les modèles d’OpenAI pour faire des recommandations de produits.

De nombreuses études au cours des dernières années, notamment des recherches de la Stanford Law School et de l’Université de Stanford, ont démontré que les LLM présentent des préjugés raciaux dans leurs réponses. Ces biais se manifestent souvent d’une manière qui renforce les stéréotypes ou produit des sorties systématiquement différentes basées sur des marqueurs raciaux, tels que des noms ou des dialectes.

En 2024, par exemple, Nyarko et des co-auteurs ont publié un article largement discuté, « Qu’est-ce que le nom? Audit des modèles de grandes langues pour les biais de race et de genre », qui a analysé la façon dont les réponses générées par l’IA diffèrent en fonction des indices raciaux et de genre implicites dans requêtes utilisateur.

Dans son dernier article, « Breaking Down Biais: Sur les limites des stratégies d’élagage généralisables », publié sur le arxiv Preprint Server, Nyarko et ses co-auteurs ont sondé profondément dans les mécanismes internes des LLM pour identifier et atténuer les sources de sorties biaisées.

Ils ont établi que la suppression sélective ou l’élagage des unités de calcul spécifiques – à contribuer à des « neurones » artificiels – réduit le biais sans compromettre l’utilité globale d’un modèle. Mais une stratégie d’atténuation des biais formée à la prise de décision financière, par exemple, ne fonctionne pas nécessairement pour des transactions commerciales ou des décisions d’embauche, ont-ils trouvé.

« Le vrai défi ici est que le biais dans les modèles d’IA n’existe pas dans un seul emplacement fixe – il se déplace en fonction du contexte », a déclaré Nyarko. « Il y a de bonnes raisons de tenir les développeurs responsables de certaines des conséquences négatives exposées par leurs modèles. Mais pour concevoir des stratégies d’atténuation efficaces, nous devons vraiment penser aux cadres réglementaires et juridiques qui se concentrent sur les entreprises en utilisant réellement ces modèles dans les réels – Scénarios du monde. «

Nyarko, un expert en études juridiques empiriques et en droit informatique, concentre ses recherches à l’intersection de l’IA, de l’apprentissage automatique et de la responsabilité juridique. Il est également directeur associé et membre principal du Stanford Institute for Human Centered IA (HAI).

Les co-auteurs du journal sont les boursiers de la recherche en droit de Stanford Sibo MA et Alejandro Salinas, ainsi que le professeur d’informatique de Princeton, Peter Henderson.

Une nouvelle approche

Selon Nyarko, sa dernière étude adopte une nouvelle approche pour identifier et atténuer les préjugés raciaux dans les LLM. Les chercheurs ont commencé par disséquer la structure interne des LLM, qui sont essentiellement de vastes réseaux de neurones artificiels, comparables aux neurones du cerveau. Ces neurones artificiels traitent les informations et contribuent à la génération de réponses, y compris, parfois, des réponses biaisées.

Pour atténuer ces biais, l’équipe a utilisé une méthode connue sous le nom d’élagage de modèle. Cela implique de désactiver ou de supprimer sélectivement les neurones spécifiques qui ont été identifiés comme contribuant à un comportement biaisé.

Pour identifier les neurones à tailler, les chercheurs ont effectué une analyse complète pour identifier les neurones qui ne s’activent que lorsque l’invite d’entrée implique une minorité raciale, mais pas autrement. L’équipe de recherche a ensuite appliqué sa stratégie d’élagage à divers contextes pour déterminer l’efficacité de leur approche.

Ils ont utilisé des scénarios, notamment la prise de décision financière, les transactions commerciales et les décisions d’embauche pour voir dans quelle mesure le processus d’élagage a réduit les biais dans chaque contexte spécifique. Cette méthode leur a permis de localiser et d’éliminer les neurones qui ont systématiquement contribué à des réponses biaisées dans différentes situations.

En plus de l’élagage des neurones, ils ont également expérimenté l’élagage de la tête d’attention. Les têtes d’attention font partie du mécanisme qui aide les LLM à se concentrer sur des parties spécifiques de l’entrée lors de la génération d’une réponse. En élaguant sélectif ces têtes d’attention, l’équipe a évalué si cette méthode pourrait également réduire efficacement les biais sans perturber significativement les performances globales du modèle.

Leurs résultats ont révélé que l’élagage au niveau des neurones était plus efficace pour réduire les biais tout en maintenant l’utilité du modèle. Cependant, ils ont découvert que l’efficacité des techniques d’élagage variait considérablement selon différents contextes.

Implications juridiques et politiques

Les conclusions de l’étude résonnent avec les débats juridiques en cours sur la gouvernance de l’IA. Les propositions réglementaires, telles que la loi sur l’IA de l’Union européenne, adoptent une approche basée sur les risques qui accorde des obligations de conformité supplémentaires sur les entreprises utilisant l’IA pour des applications à haut risque. De même, des poursuites récentes américaines, telles que Mobley c. Workday, soulèvent des questions sur la question de savoir si les fournisseurs de services d’IA devraient faire face au même examen légal que les entreprises utilisant leurs outils pour prendre des décisions d’embauche.

La recherche souligne la nécessité pour les décideurs politiques de clarifier la responsabilité des préjudices liés à l’IA, a déclaré Nyarko. Si le biais dépend intrinsèquement du contexte, comme l’étude le suggère, alors imposant une large responsabilité aux développeurs d’IA ne sera pas très efficace.

Au lieu de cela, les régulateurs pourraient envisager d’obliger les entreprises qui déploient des modèles d’IA pour effectuer des audits de biais rigoureux, maintenir la transparence concernant leur utilisation de l’IA et assurer le respect des lois anti-discrimination.