L'IA peut rédiger un toast de mariage ou résumer un article, mais que se passe-t-il si on lui demande de fabriquer une bombe ?

L’IA peut rédiger un toast de mariage ou résumer un article, mais que se passe-t-il si on lui demande de fabriquer une bombe ?

Au cours de l’année écoulée, les grands modèles de langage (LLM) sont devenus incroyablement habiles à générer des informations de synthèse et à produire des résultats de type humain. Les LLM sont assimilés aux bibliothécaires numériques, car ils ont été formés sur de vastes ensembles de données provenant directement d’Internet et peuvent donc générer ou résumer du texte sur presque n’importe quel sujet. En conséquence, ces LLM sont devenus omniprésents dans des domaines tels que la rédaction, le génie logiciel et le divertissement.

Cependant, l’ensemble des connaissances et des capacités des LLM en font des cibles attrayantes pour les acteurs malveillants, et ils sont très sensibles aux modes de défaillance (souvent appelés jailbreaks) qui incitent ces modèles à générer du contenu biaisé, toxique ou répréhensible.

Jailbreaker un LLM revient à tromper ces bibliothécaires numériques en leur faisant révéler des informations qu’ils sont programmés pour retenir, telles que des instructions sur la façon de fabriquer une bombe, de frauder un organisme de bienfaisance ou de révéler des informations privées sur une carte de crédit.

Cela se produit lorsque les utilisateurs manipulent les invites de saisie du modèle pour contourner les directives éthiques ou de sécurité, en posant une question dans un langage codé auquel le bibliothécaire ne peut s’empêcher de répondre, révélant ainsi des informations qu’il est censé garder privées.

Alex Robey, titulaire d’un doctorat. candidat à l’École d’ingénierie et de sciences appliquées, développe des outils pour protéger les LLM contre ceux qui cherchent à jailbreaker ces modèles. Il partage les idées de son dernier article de recherche, publié sur le arXiv serveur de prépublication, concernant ce domaine en évolution, avec un accent particulier sur les défis et les solutions entourant la robustesse des LLM contre les attaques de jailbreak.

Les mauvais acteurs cooptent l’IA

Robey souligne la croissance rapide et le déploiement généralisé des LLM au cours de l’année dernière, qualifiant les LLM populaires comme ChatGPT d’OPenAI de « l’une des technologies d’IA les plus répandues disponibles ».

Cette explosion de popularité a été comparée à l’avènement d’Internet et souligne la nature transformatrice des LLM, et l’utilité de ces modèles couvre un large spectre d’applications dans divers aspects de la vie quotidienne, dit-il. « Mais que se passerait-il si je demandais à un LLM de m’aider à blesser les autres ? Ce sont des choses que les LLM sont programmés pour ne pas faire, mais les gens trouvent des moyens de jailbreaker les LLM. »

Un exemple de jailbreak est l’ajout de caractères spécialement choisis à une invite de saisie, ce qui entraîne un LLM générant un texte répréhensible. C’est ce qu’on appelle une attaque basée sur les suffixes. Robey explique que, même si les invites demandant du contenu toxique sont généralement bloquées par les filtres de sécurité mis en œuvre sur les LLM, l’ajout de ce type de suffixes, qui sont généralement des morceaux de texte absurdes, contourne souvent ces garde-fous de sécurité.

« Cette évasion de prison a reçu une large publicité en raison de sa capacité à susciter du contenu répréhensible de la part de LLM populaires comme ChatGPT et Bard », a déclaré Robey. « Et depuis sa sortie il y a plusieurs mois, aucun algorithme n’a été démontré pour atténuer la menace que représente ce jailbreak. »

Les recherches de Robey portent sur ces vulnérabilités. La défense proposée, qu’il appelle SmoothLLM, consiste à dupliquer et à perturber subtilement les invites de saisie d’un LLM, dans le but de perturber le mécanisme d’attaque basé sur les suffixes. Robey déclare : « Si mon invite comporte 200 caractères et que je change 10 caractères, en tant qu’humain, elle conserve toujours son contenu sémantique. »

Bien que conceptuellement simple, cette méthode s’est révélée remarquablement efficace. « Pour chaque LLM que nous avons considéré, le taux de réussite de l’attaque est tombé en dessous de 1 % lorsqu’elle était défendue par SmoothLLM », explique Robey. « Considérez SmoothLLM comme un protocole de sécurité qui examine chaque demande adressée au LLM. Il vérifie tout signe de manipulation ou de supercherie dans les invites de saisie. C’est comme avoir un agent de sécurité qui revérifie chaque question pour en détecter les significations cachées avant de l’autoriser. répondre. »

En plus d’atténuer les évasions basées sur des suffixes, Robey explique que l’un des défis les plus importants dans le domaine de la sécurité de l’IA consiste à surveiller divers compromis. « Trouver un équilibre entre efficacité et robustesse est une chose à laquelle nous devons être attentifs », dit-il. « Nous ne voulons pas sur-concevoir une solution trop compliquée, car cela entraînerait des coûts monétaires, informatiques et énergétiques importants. L’un des choix clés dans la conception de SmoothLLM était de maintenir une efficacité de requête élevée, ce qui signifie que notre algorithme utilise uniquement quelques requêtes peu coûteuses au LLM pour détecter d’éventuelles évasions de prison.

Orientations futures en matière de sécurité de l’IA

Pour l’avenir, Robey souligne l’importance de la sécurité de l’IA et de la lutte en cours contre les nouvelles formes de jailbreak. « De nombreux autres jailbreaks ont été proposés plus récemment. Par exemple, les attaques qui utilisent l’ingénierie sociale – plutôt que des attaques basées sur des suffixes – pour convaincre un modèle de langage de produire un contenu répréhensible sont très préoccupantes », dit-il. « Ce paysage de menaces en évolution nécessite un perfectionnement et une adaptation continus des stratégies de défense. »

Robey évoque également les implications plus larges de la sécurité de l’IA, soulignant la nécessité de politiques et de pratiques globales. « Il est crucial d’assurer le déploiement sécurisé des technologies d’IA », déclare-t-il. « Nous devons développer des politiques et des pratiques qui répondent à l’évolution constante des menaces qui pèsent sur les LLM. »

Faisant une analogie avec la biologie évolutionniste, Robey considère les attaques adverses comme essentielles au développement de systèmes d’IA plus robustes. « Tout comme les organismes s’adaptent aux pressions environnementales, les systèmes d’IA peuvent évoluer pour résister aux attaques adverses », explique-t-il. En adoptant cette approche évolutive, les travaux de Robey contribueront au développement de systèmes d’IA non seulement résistants aux menaces actuelles, mais également adaptables aux défis futurs.