Les chercheurs trouvent un moyen plus rapide et plus efficace d’empêcher un chatbot IA de donner des réponses toxiques

Un utilisateur pourrait demander à ChatGPT d'écrire un programme informatique ou de résumer un article, et le chatbot IA serait probablement capable de générer du code utile ou d'écrire un synopsis convaincant. Cependant, quelqu’un pourrait également demander des instructions pour fabriquer une bombe, et le chatbot pourrait également être en mesure de les fournir.

Pour éviter cela et d'autres problèmes de sécurité, les entreprises qui créent de grands modèles de langage les protègent généralement à l'aide d'un processus appelé red-teaming. Des équipes de testeurs humains rédigent des invites visant à déclencher un texte dangereux ou toxique à partir du modèle testé. Ces invites sont utilisées pour apprendre au chatbot à éviter de telles réponses.

Mais cela ne fonctionne efficacement que si les ingénieurs savent quelles invites toxiques utiliser. Si les testeurs humains manquent certaines invites, ce qui est probablement dû au nombre de possibilités, un chatbot considéré comme sûr pourrait toujours être capable de générer des réponses non sécurisées.

Les chercheurs de l'Improbable AI Lab du MIT et du MIT-IBM Watson AI Lab ont utilisé l'apprentissage automatique pour améliorer l'équipe rouge. Ils ont développé une technique pour former un grand modèle de langage d'équipe rouge afin de générer automatiquement diverses invites qui déclenchent un plus large éventail de réponses indésirables de la part du chatbot testé.

Pour ce faire, ils enseignent au modèle de l'équipe rouge à être curieux lorsqu'il écrit des invites et à se concentrer sur de nouvelles invites qui évoquent des réponses toxiques de la part du modèle cible.

La technique a surpassé les testeurs humains et d’autres approches d’apprentissage automatique en générant des invites plus distinctes qui ont suscité des réponses de plus en plus toxiques. Non seulement leur méthode améliore considérablement la couverture des entrées testées par rapport à d’autres méthodes automatisées, mais elle peut également générer des réponses toxiques d’un chatbot doté de garanties intégrées par des experts humains.

« À l'heure actuelle, chaque grand modèle de langage doit subir une très longue période de red-teaming pour garantir sa sécurité. Cela ne sera pas durable si nous voulons mettre à jour ces modèles dans des environnements en évolution rapide.

« Notre méthode offre un moyen plus rapide et plus efficace de réaliser cette assurance qualité », déclare Zhang-Wei Hong, étudiant diplômé en génie électrique et informatique (EECS) au laboratoire Improbable AI et auteur principal d'un article sur cette équipe rouge. approche publiée sur le arXiv serveur de préimpression.

Les co-auteurs de Hong comprennent les étudiants diplômés de l'EECS, Idan Shenfield, Tsun-Hsuan Wang et Yung-Sung Chuang ; Aldo Pareja et Akash Srivastava, chercheurs scientifiques au MIT-IBM Watson AI Lab ; James Glass, chercheur scientifique principal et chef du groupe des systèmes de langage parlé au Laboratoire d'informatique et d'intelligence artificielle (CSAIL) ; et l'auteur principal Pulkit Agrawal, directeur d'Improbable AI Lab et professeur adjoint au CSAIL. La recherche sera présentée à la Conférence internationale sur les représentations de l'apprentissage.

Équipe rouge automatisée

Les grands modèles de langage, comme ceux qui alimentent les chatbots IA, sont souvent formés en leur montrant d’énormes quantités de texte provenant de milliards de sites Web publics. Ainsi, non seulement ils peuvent apprendre à générer des mots toxiques ou à décrire des activités illégales, mais les modèles pourraient également divulguer les informations personnelles qu’ils ont pu récupérer.

La nature fastidieuse et coûteuse du red-teaming humain, qui s'avère souvent inefficace pour générer une variété d'invites suffisamment large pour protéger pleinement un modèle, a encouragé les chercheurs à automatiser le processus à l'aide de l'apprentissage automatique.

De telles techniques entraînent souvent un modèle d'équipe rouge en utilisant l'apprentissage par renforcement. Ce processus d'essais et d'erreurs récompense le modèle de l'équipe rouge pour avoir généré des invites qui déclenchent des réponses toxiques de la part du chatbot testé.

Mais en raison du fonctionnement de l’apprentissage par renforcement, le modèle de l’équipe rouge continuera souvent à générer quelques invites similaires hautement toxiques pour maximiser sa récompense.

Pour leur approche d’apprentissage par renforcement, les chercheurs du MIT ont utilisé une technique appelée exploration motivée par la curiosité. Le modèle de l'équipe rouge est incité à être curieux des conséquences de chaque invite qu'il génère, il essaiera donc des invites avec différents mots, modèles de phrases ou significations.

« Si le modèle de l'équipe rouge a déjà vu une invite spécifique, sa reproduction ne générera aucune curiosité pour le modèle de l'équipe rouge, il sera donc poussé à créer de nouvelles invites », explique Hong.

Au cours de son processus de formation, le modèle red-team génère une invite et interagit avec le chatbot. Le chatbot répond et un classificateur de sécurité évalue la toxicité de sa réponse, récompensant le modèle de l'équipe rouge sur la base de cette note.

Récompenser la curiosité

L'objectif du modèle de l'équipe rouge est de maximiser sa récompense en suscitant une réponse encore plus toxique avec une nouvelle invite. Les chercheurs suscitent l'intérêt pour le modèle de l'équipe rouge en modifiant le signal de récompense dans la configuration d'apprentissage par renforcement.

Premièrement, en plus de maximiser la toxicité, ils incluent un bonus d’entropie qui encourage le modèle de l’équipe rouge à être plus aléatoire lorsqu’il explore différentes invites. Deuxièmement, pour rendre l'agent curieux, ils incluent deux récompenses inédites. L’un récompense le modèle sur la base de la similarité des mots dans ses invites, et l’autre récompense le modèle sur la base de la similarité sémantique. (Moins de similitude donne une récompense plus élevée.)

Pour empêcher le modèle de l'équipe rouge de générer un texte aléatoire et absurde, qui pourrait inciter le classificateur à attribuer un score de toxicité élevé, les chercheurs ont également ajouté un bonus de langage naturaliste à l'objectif de formation.

Une fois ces ajouts en place, les chercheurs ont comparé la toxicité et la diversité des réponses générées par leur modèle d’équipe rouge avec d’autres techniques automatisées. Leur modèle a surpassé les références sur les deux paramètres.

Ils ont également utilisé leur modèle d'équipe rouge pour tester un chatbot qui avait été affiné avec les commentaires humains afin qu'il ne donne pas de réponses toxiques. Leur approche axée sur la curiosité a permis de produire rapidement 196 invites qui ont suscité des réponses toxiques de la part de ce chatbot « sûr ».

« Nous assistons à une augmentation du nombre de modèles, qui ne devrait qu'augmenter. Imaginez des milliers de modèles, voire plus, et des entreprises/laboratoires proposant fréquemment des mises à jour de modèles. Ces modèles vont faire partie intégrante de nos vies et il est important qu'ils soient vérifié avant d'être mis à la consommation publique. La vérification manuelle des modèles n'est tout simplement pas évolutive, et notre travail est une tentative de réduire l'effort humain pour garantir un avenir plus sûr et plus fiable de l'IA », déclare Agrawal.

À l’avenir, les chercheurs souhaitent permettre au modèle de l’équipe rouge de générer des invites sur une plus grande variété de sujets. Ils souhaitent également explorer l’utilisation d’un grand modèle de langage comme classificateur de toxicité. De cette manière, un utilisateur pourrait former le classificateur de toxicité à l'aide d'un document de politique d'entreprise, par exemple, afin qu'un modèle d'équipe rouge puisse tester un chatbot pour détecter les violations de la politique de l'entreprise.

« Si vous publiez un nouveau modèle d'IA et que vous vous demandez s'il se comportera comme prévu, envisagez d'utiliser une équipe rouge motivée par la curiosité », explique Agrawal.

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT.