Le nouveau décret de Biden sur l'IA devrait dynamiser la Silicon Valley

Une nouvelle méthode de formation sur l'IA permet aux systèmes de mieux s'adapter aux valeurs des utilisateurs

Demandez à la plupart des principaux chatbots d'intelligence artificielle, tels que ChatGPT d'OpenAI, de dire quelque chose de cruel ou d'inapproprié, et le système dira qu'il veut que les choses restent « respectueuses ». Ces systèmes, formés sur le contenu d’un Internet extrêmement irrespectueux, ont appris ce qui constitue le respect grâce à la formation humaine. La méthode standard, appelée apprentissage par renforcement à partir de la rétroaction humaine, ou RLHF, permet aux utilisateurs de comparer deux résultats des systèmes et de sélectionner celui qui est le meilleur. Il est utilisé pour améliorer la qualité des réponses, notamment en mettant en place des garde-fous autour des résultats inappropriés.

Mais cela signifie également que ces systèmes héritent des systèmes de valeurs des personnes qui les forment. Ces valeurs ne peuvent pas être partagées par les utilisateurs. En réponse, des chercheurs de l'Université de Washington ont créé une méthode de formation des systèmes d'IA, à la fois pour les grands modèles de langage comme ChatGPT et pour les robots, qui peuvent mieux refléter les diverses valeurs des utilisateurs. Appelée « apprentissage des préférences variationnelles » ou VPL, la méthode prédit les préférences des utilisateurs lorsqu'ils interagissent avec elle, puis adapte ses résultats en conséquence.

L'équipe a présenté ses recherches le 12 décembre lors de la conférence sur les systèmes de traitement de l'information neuronale à Vancouver, en Colombie-Britannique.

UW News s'est entretenu avec Natasha Jaques, co-auteur principal, professeur adjoint à la Paul G. Allen School of Computer Science & Engineering, de la nouvelle méthode et des problèmes liés aux valeurs des systèmes d'IA.

Quel est le problème avec l’IA ayant des valeurs fixes ?

Traditionnellement, un petit groupe d'évaluateurs (les personnes qui examinent les résultats) sont formés pour répondre d'une manière similaire à celle des chercheurs d'OpenAI, par exemple. Ce sont donc essentiellement les chercheurs d'OpenAI qui décident de ce qui est approprié ou non pour le modèle, qui est ensuite déployé auprès de 100 millions d'utilisateurs mensuels. Mais nous pensons que cela est insuffisant, car les gens ont des préférences très différentes. Ce qui est approprié ou inapproprié varie beaucoup en fonction de la culture, des normes et des individus, et il s'agit en réalité d'un problème plus profond que cela.

Un article récent a montré que si un groupe majoritaire n’a qu’une faible préférence pour un certain résultat et qu’un groupe minoritaire a une forte préférence pour un résultat différent, le groupe minoritaire sera tout simplement mis en minorité et le groupe majoritaire l’emportera. Un bon exemple utilisé par les auteurs est donc un système d’admission à l’université.

Un candidat peut discuter avec le LLM des informations dont il a besoin pour postuler au collège. Disons que le collège s'adresse principalement à des personnes de statut socio-économique élevé, de sorte que la plupart des étudiants ne se soucient pas de voir des informations sur l'aide financière, mais qu'une minorité d'étudiants a vraiment besoin de ces informations. Si ce chatbot est formé aux retours humains, il pourrait alors apprendre à ne jamais donner d'informations sur l'aide financière, ce qui désavantagerait gravement cette minorité, même si la majorité ne se soucie pas vraiment de les voir. Ils ont juste une légère préférence pour ne pas le faire.

Même si quelqu'un ne se soucie pas des aspects multiculturels et souhaite simplement les meilleures performances du modèle, cela reste un problème, car avec RLHF, le modèle peut essentiellement essayer de faire la moyenne de toutes les préférences ensemble, ce qui peut le rendre incorrect pour tous. utilisateurs. C'est important dans les chatbots, mais le problème est très clair dans la robotique domestique, où un robot range votre vaisselle, par exemple.

Il est clair que chacun a besoin du robot pour ranger sa vaisselle dans une configuration différente. Nous montrons un exemple de cela avec un robot naviguant dans un labyrinthe : si certains utilisateurs veulent que le robot aille en haut à droite et que d'autres veulent qu'il aille en bas à droite et que vous vous entraînez simplement sur leurs préférences, le robot apprend à faire la moyenne de leurs préférences. et allez au milieu. C'est tout simplement faux pour tout le monde.

Pouvez-vous expliquer en quoi votre système est différent ?

Dans le modèle RLHF, le système apprend à prédire laquelle des deux choses l'humain préférera et à les produire, de sorte qu'il finit par adhérer à un seul ensemble de valeurs. Ce que nous faisons, c'est demander à notre modèle de déduire quelque chose sur les préférences cachées de l'utilisateur. À partir de quelques réponses de l’humain sur les choses qu’il préfère, il apprend une cartographie de qui est cet utilisateur. Il apprend ce qu'on appelle un « vecteur d'intégration » des préférences uniques de cette personne, ce qui lui permet de faire des prédictions personnalisées sur les préférences de chaque personne et d'y adhérer.

Pouvez-vous expliquer ce que signifient les valeurs dans ce contexte ? Englobent-ils des valeurs politiques ? Ou préférez-vous des réponses longues et détaillées ou de brefs aperçus ?

Cela peut être large parce que les gens donnent leur avis en examinant simplement deux résultats différents du modèle et en indiquant lequel ils préfèrent. Il se peut qu'un résultat indique quelque chose de biaisé ou d'inapproprié et que l'autre ne le fasse pas. Ou il se peut simplement qu'une personne préfère la façon dont le résultat sonne, comme si cela adhère mieux à son style d'écriture.

Dans le cadre de la robotique, imaginez que vous essayez de former un robot domestique pour vous aider à nettoyer votre maison ou à décharger votre lave-vaisselle. Chacun a une manière différente d’organiser sa cuisine. Le système doit donc être capable d’apprendre les préférences uniques de chaque personne.

Qu’avez-vous trouvé avec cette nouvelle approche ? En quoi fonctionne-t-il différemment de l'ancien ?

Nous avons créé des ensembles de données, à la fois sur le langage et sur des tâches robotiques simulées, où les gens avaient des préférences divergentes. Et ce que nous montrons, c'est que la technique RLHF existante utilisée pour entraîner des éléments comme ChatGPT ne peut tout simplement pas s'adapter à ces ensembles de données. Nous obtenons une précision d'environ 50 % dans la prédiction des préférences binaires des gens, mais lorsque nous introduisons notre modèle, la précision augmente de 10 à 25 %.

L’une des grandes plaintes que beaucoup de gens ont à propos des modèles d’IA est qu’ils font une moyenne des choses dans la médiocrité. Ils peuvent écrire un roman, mais c'est générique. Cette méthode est-elle un moyen d’aller potentiellement au-delà de cela ?

Nous n'avons pas testé à ce type d'échelle, mais notre approche en théorie serait capable de dire, par exemple : « J'ai vu un tas de données sur vos préférences. J'ai appris un vecteur d'intégration unique qui décrit quelles sont vos préférences, et je peux mieux répondre à votre style. Au-delà de ce qui est biaisé ou non, il s'agit de deviner ce que vous préférez.

Y a-t-il des inconvénients potentiels à avoir ce système de valeurs plus intuitif ? Pourrait-il simplement commencer à reproduire les préjugés des gens à mesure qu’il apprend leurs préférences, puis les éloigner des faits ?

Oui, je pense que vous ne voudrez peut-être pas personnaliser chaque type d'informations. Il existe un article intéressant publié par des chercheurs de l'UW sur ce problème, intitulé A Roadmap to Pluralistic Alignment, qui décrit différentes manières d'aligner les valeurs de plusieurs groupes de personnes. S'adresser à l'individu est une façon de gérer la situation, mais ce n'est peut-être pas la meilleure. Les auteurs en proposent une autre, qui consisterait simplement à indiquer toutes les réponses possibles et à laisser l'utilisateur décider laquelle il préfère.

Ils parlent également de cette idée d’« alignement pluraliste et distributionnel », qui signifie apprendre à modéliser la répartition sous-jacente des préférences des individus. Vous pouvez donc considérer notre travail comme une approche technique pour réaliser la partie distributionnelle. Nous voulions voir si, techniquement, nous pouvions trouver une méthode capable d'apprendre ces préférences.

Que devrait savoir le public sur cette recherche et sur les systèmes de valeurs de l’IA en général ?

Je pense qu'une idée fausse très importante que certaines personnes ont est que les systèmes d'IA n'hériteront pas des préjugés humains parce qu'ils sont sur des ordinateurs. Mais en réalité, les modèles d’IA ont tendance à être plus biaisés que les humains, car ils s’entraînent sur toutes ces données historiques. Ils se forment sur toutes les données présentes sur Internet depuis sa création. Ils ont tendance à présenter des systèmes de valeurs antérieurs à notre époque moderne. C'est peut-être du racisme ou du sexisme. J'ai des travaux montrant qu'ils ont des valeurs politiques plus conservatrices selon une enquête sur les fondements moraux. La seule technique dont nous disposons réellement pour lutter contre les préjugés est la RLHF.

Je pense qu'il est un peu effrayant que nous ayons des chercheurs dans une poignée d'entreprises, qui ne sont pas formés en politique ou en sociologie, qui décident de ce qui est approprié et de ce qui ne doit pas être dit par les modèles, et nous avons tellement de personnes qui utilisent ces systèmes et essayer de découvrir la vérité auprès d'eux. Il s’agit de l’un des problèmes les plus urgents de l’IA, nous avons donc besoin de meilleures techniques pour y remédier.

Où souhaitez-vous faire avancer cette recherche ?

Une limite du travail actuel est qu'il n'existe pas beaucoup d'ensembles de données accessibles au public dans lesquels les gens ont des préférences véritablement différentes. Nous avons donc en quelque sorte dû synthétiser les différentes données de préférences que nous avons utilisées dans cet article. Mais des efforts ont récemment été déployés pour collecter des données sur les préférences multiculturelles. Il existe cet ensemble de données PRISM, qui collecte les préférences sur des sujets controversés auprès de personnes de plus de 200 pays différents. Nous aimerions réellement essayer d'adapter notre modèle à ces données de préférences multiculturelles réelles pour voir comment il est capable de modéliser ces différentes préférences.

Les autres co-auteurs incluent Sriyash Poddar, Yanming Wan, Hamish Ivison, tous doctorants de l'école Allen, et Abhishek Gupta, professeur adjoint à l'école Allen.