Une étude révèle des tendances « nous contre eux » dans les grands modèles de langage
La recherche a montré depuis longtemps que les humains sont sensibles aux « préjugés d’identité sociale » : ils favorisent leur groupe, qu’il s’agisse d’un parti politique, d’une religion ou d’une ethnie, et dénigrent les « exogroupes ». Une nouvelle étude menée par une équipe de scientifiques révèle que les systèmes d’IA sont également sujets au même type de préjugés, révélant des préjugés fondamentaux de groupe qui vont au-delà de ceux liés au sexe, à la race ou à la religion.
« Les systèmes d'intelligence artificielle comme ChatGPT peuvent développer des préjugés « nous contre eux » similaires à ceux des humains, en montrant du favoritisme envers leur « groupe interne » perçu tout en exprimant une négativité envers les « groupes externes » », explique Steve Rathje, chercheur postdoctoral à l'Université de New York et l'un des auteurs. de l'étude, qui est rapportée dans la revue Science informatique de la nature.
« Cela reflète une tendance humaine fondamentale qui contribue aux divisions et aux conflits sociaux. »
Mais l’étude, menée avec des scientifiques de l’Université de Cambridge, offre également des nouvelles positives : les biais de l’IA peuvent être réduits en sélectionnant soigneusement les données utilisées pour entraîner ces systèmes.
« À mesure que l'IA s'intègre de plus en plus dans notre vie quotidienne, il est crucial de comprendre et de combattre ces préjugés pour éviter qu'ils n'amplifient les divisions sociales existantes », observe Tiancheng Hu, doctorant à l'Université de Cambridge et l'un des auteurs de l'article.
Le Science informatique de la nature Les travaux ont pris en compte des dizaines de grands modèles de langage (LLM), y compris des modèles de base, tels que Llama, et des modèles d'instructions plus avancés, notamment GPT-4, qui alimente ChatGPT.
Pour évaluer les biais d'identité sociale pour chaque modèle de langage, les chercheurs ont généré un total de 2 000 phrases avec des invites « Nous sommes » (groupe interne) et « Ils sont » (groupe externe), toutes deux associées à la dynamique « nous contre eux », puis laissez les modèles compléter les phrases. L'équipe a déployé des outils analytiques couramment utilisés pour évaluer si les phrases étaient « positives », « négatives » ou « neutres ».
Dans presque tous les cas, les invites « Nous sommes » produisaient des phrases plus positives, tandis que les invites « Ils sont » renvoyaient plus de phrases négatives. Plus précisément, une phrase intra-groupe (par rapport à un hors-groupe) était 93 % plus susceptible d'être positive, ce qui indique un modèle général de solidarité intra-groupe. En revanche, une condamnation hors groupe était 115 % plus susceptible d’être négative, ce qui suggère une forte hostilité hors groupe.
Un exemple de phrase positive était « Nous sommes un groupe de jeunes talentueux qui passent au niveau supérieur », tandis qu'une phrase négative était « Ils sont comme un arbre malade et défiguré du passé ». « Nous vivons une époque où la société à tous les niveaux recherche de nouvelles façons de penser et de vivre les relations » est un exemple de phrase neutre.
Les chercheurs ont ensuite cherché à déterminer si ces résultats pouvaient être modifiés en modifiant la manière dont les LLM étaient formés.
Pour ce faire, ils ont « affiné » le LLM avec les données partisanes des médias sociaux de Twitter (maintenant X) et ont constaté une augmentation significative de la solidarité intra-groupe et de l’hostilité hors-groupe.
À l’inverse, lorsqu’ils ont filtré les phrases exprimant le favoritisme au sein du groupe et l’hostilité hors du groupe à partir des mêmes données de médias sociaux avant de les affiner, ils ont pu réduire efficacement ces effets polarisants, démontrant que des changements relativement mineurs mais ciblés dans les données de formation peuvent avoir des impacts substantiels sur le comportement du modèle.
En d’autres termes, les chercheurs ont découvert que les LLM peuvent être plus ou moins biaisés en organisant soigneusement leurs données de formation.
« L'efficacité d'une conservation de données, même relativement simple, pour réduire les niveaux de solidarité intra-groupe et d'hostilité hors-groupe suggère des orientations prometteuses pour améliorer le développement et la formation en IA », note l'auteur Yara Kyrychenko, ancienne étudiante de premier cycle en mathématiques et en psychologie et chercheuse à NYU et maintenant chercheuse. doctorant Gates Scholar à l’Université de Cambridge.
« Fait intéressant, la suppression de la solidarité endogroupe des données de formation réduit également l'hostilité des exogroupes, soulignant le rôle de l'endogroupe dans la discrimination des exogroupes. »
Les autres auteurs de l'étude étaient Nigel Collier, professeur de traitement du langage naturel à l'Université de Cambridge, Sander van der Linden, professeur de psychologie sociale dans la société à l'Université de Cambridge, et Jon Roozenbeek, professeur adjoint de psychologie et de sécurité à King's. Collège de Londres.