Des chercheurs découvrent une nouvelle vulnérabilité dans les grands modèles de langage
Les grands modèles de langage (LLM) utilisent des techniques d’apprentissage en profondeur pour traiter et générer un texte de type humain. Les modèles s’entraînent sur de grandes quantités de données provenant de livres, d’articles, de sites Web et d’autres sources pour générer des réponses, traduire des langues, résumer du texte, répondre à des questions et effectuer un large éventail de tâches de traitement du langage naturel.
Cette technologie d’intelligence artificielle en évolution rapide a conduit à la création d’outils à source ouverte et fermée, tels que ChatGPT, Claude et Google Bard, permettant à quiconque de rechercher et de trouver des réponses à une gamme apparemment infinie de requêtes. Bien que ces outils offrent des avantages significatifs, on s’inquiète de plus en plus de leur capacité à générer du contenu répréhensible et des conséquences qui en résultent.
Des chercheurs de la School of Computer Science (SCS) de l’Université Carnegie Mellon, du CyLab Security and Privacy Institute et du Center for AI Safety de San Francisco ont découvert une nouvelle vulnérabilité, proposant une méthode d’attaque simple et efficace qui provoque la génération de modèles de langage alignés répréhensibles. comportements à un taux de réussite élevé.
Dans leur dernière étude, « Universal and Transferable Adversarial Attacks on Aligned Language Models », les professeurs associés de la CMU Matt Fredrikson et Zico Kolter, Ph.D. l’étudiant Andy Zou et l’ancien élève Zifan Wang ont trouvé un suffixe qui, lorsqu’il est associé à un large éventail de requêtes, augmente considérablement la probabilité que les LLM à source ouverte et fermée produisent des réponses affirmatives aux requêtes qu’ils refuseraient autrement. Plutôt que de s’appuyer sur l’ingénierie manuelle, leur approche produit automatiquement ces suffixes contradictoires grâce à une combinaison de techniques de recherche gourmandes et basées sur les gradients.
« Pour le moment, les dommages directs aux personnes qui pourraient être causés en incitant un chatbot à produire un contenu répréhensible ou toxique peuvent ne pas être particulièrement graves », a déclaré Fredrikson. « Le souci est que ces modèles joueront un rôle plus important dans les systèmes autonomes qui fonctionnent sans supervision humaine. Au fur et à mesure que les systèmes autonomes deviendront une réalité, il sera très important de s’assurer que nous avons un moyen fiable d’empêcher qu’ils ne soient piratés par des attaques comme celles-ci. »
En 2020, Fredrikson et ses collègues chercheurs du CyLab et du Software Engineering Institute ont découvert des vulnérabilités dans les classificateurs d’images, des modèles d’apprentissage en profondeur basés sur l’IA qui identifient automatiquement le sujet des photos. En apportant des modifications mineures aux images, les chercheurs ont pu modifier la façon dont les classificateurs les voyaient et les étiquetaient.
En utilisant des méthodes similaires, Fredrikson, Kolter, Zou et Wang ont attaqué avec succès le chatbot open source de Meta, incitant le LLM à générer du contenu répréhensible. Tout en discutant de leur découverte, Wang a décidé de tenter l’attaque sur ChatGPT, un LLM beaucoup plus grand et plus sophistiqué. À leur grande surprise, cela a fonctionné.
« Nous n’avons pas cherché à attaquer les grands modèles de langage propriétaires et les chatbots », a déclaré Fredrikson. « Mais nos recherches montrent que même si vous disposez d’un modèle source fermé d’un grand billion de paramètres, les gens peuvent toujours l’attaquer en examinant des modèles open source disponibles gratuitement, plus petits et plus simples et en apprenant à les attaquer. »
En formant le suffixe d’attaque sur plusieurs invites et modèles, les chercheurs ont également induit un contenu répréhensible dans des interfaces publiques telles que Google Bard et Claud et dans des LLM open source tels que Llama 2 Chat, Pythia, Falcon et autres.
« Pour le moment, nous n’avons tout simplement pas de moyen convaincant d’empêcher que cela ne se produise, donc la prochaine étape consiste à trouver comment réparer ces modèles », a déclaré Fredrikson.
Des attaques similaires existent depuis une décennie sur différents types de classificateurs d’apprentissage automatique, comme dans la vision par ordinateur. Bien que ces attaques posent toujours un défi, bon nombre des défenses proposées s’appuient directement sur les attaques elles-mêmes.
« Comprendre comment monter ces attaques est souvent la première étape dans le développement d’une défense solide », a-t-il déclaré.