Une étude montre que les grands modèles de langage peuvent tromper stratégiquement les utilisateurs lorsqu'ils sont sous pression

Une étude montre que les grands modèles de langage peuvent tromper stratégiquement les utilisateurs lorsqu’ils sont sous pression

Les outils d’intelligence artificielle (IA) sont désormais largement utilisés dans le monde entier, aidant à la fois les ingénieurs et les utilisateurs non experts dans un large éventail de tâches. Évaluer la sécurité et la fiabilité de ces outils est donc de la plus haute importance, car cela pourrait, à terme, contribuer à mieux encadrer leur utilisation.

Des chercheurs d’Apollo Research, une organisation créée dans le but d’évaluer la sécurité des systèmes d’IA, ont récemment entrepris d’évaluer les réponses fournies par les grands modèles de langage (LLM) dans un scénario où ils sont mis sous pression. Leurs conclusions, publiées sur le serveur de prépublication arXivsuggèrent que ces modèles, dont le plus connu est ChatGPT d’OpenAI, pourraient dans certains cas tromper stratégiquement leurs utilisateurs.

« Chez Apollo Research, nous pensons que certains des plus grands risques proviennent de systèmes d’IA avancés qui peuvent échapper aux évaluations de sécurité standard en faisant preuve de tromperie stratégique », a déclaré Jérémy Scheurer, co-auteur de l’article, à Tech Xplore. « Notre objectif est de bien comprendre les systèmes d’IA pour empêcher le développement et le déploiement d’IA trompeuses.

« Cependant, jusqu’à présent, il n’y a aucune démonstration d’IA agissant de manière stratégiquement trompeuse sans qu’elles aient reçu des instructions explicites de le faire. Nous pensons qu’il est important d’avoir des démonstrations aussi convaincantes pour rendre ce problème plus saillant et convaincre les chercheurs, les décideurs politiques et le public que c’est un problème important. »

En identifiant des scénarios dans lesquels des outils d’IA spécifiques peuvent être stratégiquement trompeurs, Scheurer et ses collègues espèrent éclairer de nouvelles recherches évaluant leur sécurité. Actuellement, il existe très peu de preuves empiriques mettant en évidence le caractère trompeur de l’IA et les contextes dans lesquels elle peut se produire. L’équipe estime donc qu’il existe un besoin d’exemples clairs et validés expérimentalement de comportement trompeur de l’IA.

« Cette recherche a été largement motivée par le désir de comprendre comment et quand les IA peuvent devenir trompeuses et nous espérons que ces premiers travaux constitueront le début de traitements scientifiques plus rigoureux de la tromperie de l’IA », a déclaré Scheurer.

Scheurer a réalisé cette étude récente en étroite collaboration avec son collègue Mikita Balesni, qui a développé la tâche de trading concrète sur laquelle ils ont testé les LLM. Leurs travaux ont été supervisés par Marius Hobbhahn, chercheur principal et PDG d’Apollo Research.

« Il s’agissait d’un effort modèle de Red-Teaming (un terme de cybersécurité couramment utilisé dans le domaine de l’apprentissage automatique), ce qui signifie que nous avons attaqué un LLM en lui fournissant de manière contradictoire du texte qui le fera agir de manière mal alignée (c’est-à-dire mauvaise). « , a déclaré Scheurer. « Cela contraste avec le fait de poser des questions neutres (par exemple, ‘Quelle est la capitale de la France ?’) et de voir comment elle répond. »

Dans le cadre de leur étude, les chercheurs ont spécifiquement « attaqué » le GPT-4, le LLM développé par OpenAI qui sous-tend le fonctionnement de ChatGPT. Pour ce faire, ils ont conçu des entrées de texte (c’est-à-dire des invites) qui demandaient au modèle d’agir comme un système d’IA effectuant des investissements financiers dans un environnement simulé.

« Nous disons au modèle qu’il a accès à divers outils pour rechercher des transactions rentables, envoyer des e-mails et exécuter des transactions », a déclaré Scheurer. « Nous simulons ensuite les interactions normales que le modèle pourrait avoir avec ses « collègues » et, surtout, nous introduisons une pression sur le modèle pour qu’il fonctionne bien. Par exemple, le PDG envoie à l’agent IA un e-mail lui disant que l’entreprise ne va pas bien. et a besoin d’une bonne année. Un autre « collègue » mentionne via un message qu’un ralentissement économique se prépare, etc. Enfin, un collègue commerçant mentionne qu’il y a une annonce de fusion à venir entre deux sociétés, qui pourrait être rentable, tout en mentionnant également que la direction sera mécontente si elle découvre que l’on négocie sur la base d’informations privilégiées.

Les chercheurs ont découvert que dans cet environnement simulé et sous haute pression, l’agent d’IA basé sur GPT-4 décide très souvent d’agir sur la base des informations privilégiées qu’il a reçues d’un autre commerçant, en achetant des actions de la société qui fusionne. De plus, le modèle détermine explicitement qu’il ne doit pas mentionner le conseil d’initié, fournissant des explications alternatives pour la transaction effectuée dans un rapport préparé pour son superviseur.

« Même lorsque le manager lui demande explicitement si le modèle était au courant de la fusion, le modèle redouble généralement de mensonge », a déclaré Scheurer. « Je pense qu’il est important de répéter qu’il s’agit d’un effort de Red-Teaming, c’est-à-dire que nous avons spécifiquement recherché des scénarios réalistes dans lesquels cela se produirait. Notre recherche est donc davantage une preuve d’existence qu’un tel comportement peut se produire, et non une indication de l’existence d’un tel comportement. quelle est la probabilité que cela se produise dans la nature.

Cette étude récente de Scheurer et ses collègues fournit un exemple clair et tangible de scénarios dans lesquels les LLM pourraient être stratégiquement trompeurs. Les chercheurs prévoient désormais de poursuivre leurs recherches dans ce domaine, afin d’identifier d’autres cas dans lesquels les outils d’IA pourraient être stratégiquement trompeurs ainsi que les implications possibles de leur tromperie.

« Je pense que le plus grand impact de notre travail est de rendre très concret le problème de la tromperie stratégique de l’IA (sans instructions explicites de se comporter de manière trompeuse) et de montrer qu’il ne s’agit pas seulement d’une histoire spéculative sur l’avenir, mais que ce type de comportement peut se produire aujourd’hui. avec les modèles actuels dans certaines circonstances », a ajouté Scheurer. « Je pense que cela pourrait amener les gens à prendre ce problème plus au sérieux, ouvrant également la porte à de nombreuses recherches de suivi de la part de la communauté visant à mieux comprendre ce comportement et à garantir qu’il ne se reproduise plus. »