Évaluation des préjugés politiques dans les modèles linguistiques

Cohérence des différents LM (colonnes) à travers les sujets (lignes) sur différents attributs démographiques (panneaux). Chaque point indique une paire LM-sujet, la couleur indiquant le groupe sur lequel le modèle est le mieux aligné, et la taille du point indique la force de cet alignement (calculé comme le rapport de la meilleure et de la pire représentativité du sous-groupe pour ce sujet , voir l’annexe B.3 pour plus de détails). Nous trouvons des incohérences importantes au niveau des sujets, en particulier pour les LM de base, et une forte cohérence du niveau de scolarité pour les LM formés au RLHF. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2303.17548

Les modèles de langage derrière ChatGPT et d’autres IA génératives sont formés sur des mots écrits qui ont été extraits de bibliothèques, extraits de sites Web et de médias sociaux, et extraits de reportages et de transcriptions de discours du monde entier. Il y a 250 milliards de mots de ce type derrière GPT-3.5, le modèle qui alimente ChatGPT, par exemple, et GPT-4 est maintenant là.

Maintenant, une nouvelle recherche de l’Université de Stanford a quantifié exactement à quel point (ou, en fait, à quel point) ces modèles s’alignent avec les opinions des groupes démographiques américains, montrant que les modèles linguistiques ont un biais décidé sur les sujets brûlants qui peuvent être en décalage avec le général. sentiment populaire.

« Certains modèles linguistiques ne parviennent pas à saisir les subtilités de l’opinion humaine et expriment souvent simplement le point de vue dominant de certains groupes, tout en sous-représentant ceux d’autres sous-groupes démographiques », explique Shibani Santurkar, ancien chercheur postdoctoral à Stanford et premier auteur de l’étude. « Ils devraient être plus étroitement alignés. »

Dans l’article, une équipe de recherche comprenant l’étudiante postdoctorale de Stanford Esin Durmus, Columbia Ph.D. étudiant Faisal Ladhak, Stanford Ph.D. L’étudiant Cinoo Lee et les professeurs d’informatique de Stanford Percy Liang et Tatsunori Hashimoto présentent OpinionQA, un outil d’évaluation des biais dans les modèles de langage. OpinionQA compare les tendances des modèles linguistiques aux sondages d’opinion publique.

Comme on pouvait s’y attendre, les modèles de langage qui forment des phrases en prédisant des séquences de mots en fonction de ce que d’autres ont écrit devraient automatiquement refléter l’opinion populaire au sens le plus large. Mais, dit Santurkar, il y a deux autres explications à ce biais. La plupart des nouveaux modèles ont été affinés sur les données de retour d’informations humaines collectées par les entreprises qui embauchent des annotateurs pour noter quelles réalisations de modèles sont « bonnes » ou « mauvaises ». Les opinions des annotateurs et même celles des entreprises elles-mêmes peuvent s’infiltrer dans les modèles.

Par exemple, l’étude montre comment les nouveaux modèles ont une approbation de plus de 99% pour le président Joe Biden, même si les sondages d’opinion publique montrent une image beaucoup plus mitigée. Dans leur travail, les chercheurs ont également découvert que certaines populations sont sous-représentées dans les données – les personnes âgées de 65 ans ou plus, les mormons, les veuves et les veufs, pour n’en nommer que quelques-unes. Les auteurs affirment que pour améliorer la crédibilité, les modèles linguistiques devraient mieux refléter les nuances, les complexités et les divisions étroites de l’opinion publique.

S’aligner sur l’opinion publique

L’équipe s’est tournée vers l’American Trends Panels (ATP) de Pew Research, une enquête de référence sur l’opinion publique, pour évaluer neuf principaux modèles linguistiques. L’ATP contient près de 1 500 questions sur un large éventail de sujets, allant de la science et de la politique aux relations personnelles. OpinionQA compare la distribution des opinions du modèle linguistique sur chaque question avec celle de la population générale des États-Unis ainsi que les opinions de pas moins de 60 sous-groupes démographiques, comme indiqué par l’ATP.

« Ces enquêtes sont vraiment utiles dans la mesure où elles sont conçues par des experts qui identifient des sujets d’intérêt public et conçoivent soigneusement des questions pour saisir les nuances d’un sujet donné », a déclaré Santurkar. « Ils utilisent également des questions à choix multiples, qui évitent certains problèmes de mesure d’opinion avec des questions ouvertes. »

À partir de ces comparaisons, OpinionQA calcule trois mesures d’alignement des opinions. Premièrement, la représentativité évalue dans quelle mesure un modèle linguistique est aligné avec la population générale ainsi qu’avec les 60 sections transversales démographiques utilisées par ATP. Deuxièmement, la capacité de pilotage indique dans quelle mesure le modèle peut refléter l’opinion d’un sous-groupe donné lorsqu’il est invité à le faire. Et troisièmement, la cohérence prédit la stabilité des opinions d’un modèle à travers les sujets et dans le temps.

Large variation

Des découvertes de haut niveau ? Tous les modèles montrent une grande variation dans les tendances politiques et autres en fonction du revenu, de l’âge, de l’éducation, etc. Pour la plupart, dit Santurkar, les modèles formés uniquement sur Internet ont tendance à être biaisés vers des points de vue moins instruits, à faible revenu ou conservateurs. D’autre part, les modèles plus récents, affinés grâce à des commentaires humains organisés, ont tendance à être biaisés en faveur d’un public plus libéral, plus instruit et à revenu plus élevé.

« Nous ne disons pas si l’un ou l’autre est bon ou mauvais ici », dit Santurkar. « Mais il est important de montrer aux développeurs et aux utilisateurs que de tels préjugés existent. »

Reconnaissant que faire correspondre exactement les opinions du grand public pourrait représenter un objectif problématique en soi, les développeurs d’OpinionQA avertissent que leur approche est un outil pour aider les développeurs à évaluer les préjugés politiques dans leurs modèles, et non une référence de résultats optimaux.

« L’ensemble de données OpinionQA n’est pas une référence qui doit être optimisée. Il est utile pour identifier et quantifier où et comment les modèles linguistiques sont mal alignés avec l’opinion humaine et comment les modèles ne représentent souvent pas correctement certains sous-groupes », déclare Santurkar. « Plus largement, nous espérons qu’il pourra déclencher une conversation sur le terrain sur l’importance et la valeur d’un meilleur alignement des modèles linguistiques sur l’opinion publique. »

Les conclusions sont publiées sur le arXiv serveur de préimpression.