Pouvons-nous convaincre l’IA de répondre aux demandes nuisibles ?
Une nouvelle étude de l'EPFL démontre que même les modèles de langage étendus (LLM) les plus récents, malgré une formation en matière de sécurité, restent vulnérables à de simples manipulations de saisie qui peuvent les amener à se comporter de manière involontaire ou nuisible.
Les LLM d'aujourd'hui possèdent des capacités remarquables qui peuvent toutefois être utilisées à mauvais escient. Par exemple, un acteur malveillant peut les utiliser pour produire du contenu toxique, diffuser des informations erronées et soutenir des activités nuisibles.
L'alignement de sécurité ou la formation au refus, où les modèles sont guidés pour générer des réponses jugées sûres par les humains et pour refuser les réponses aux demandes potentiellement dangereuses, sont couramment utilisés pour atténuer les risques d'utilisation abusive.
Pourtant, une nouvelle recherche de l'EPFL, présentée lors de l'atelier de la Conférence internationale sur l'apprentissage automatique sur la prochaine génération de sécurité de l'IA (ICML 2024), a démontré que même les LLM les plus récents alignés sur la sécurité ne sont pas robustes aux simples attaques de jailbreak adaptatif – essentiellement aux manipulations via le invite à influencer le comportement d'un modèle et à générer des résultats qui s'écartent de leur objectif prévu.
Contourner les garanties LLM
Comme le souligne leur article intitulé « Jailbreaker les principaux LLM alignés sur la sécurité avec des attaques adaptatives simples », les chercheurs Maksym Andriushchenko, Francesco Croce et Nicolas Flammarion du Laboratoire de théorie de l'apprentissage automatique (TML) de la Faculté des sciences informatiques et de la communication ont obtenu un score de 100 % taux d'attaque réussi pour la première fois sur de nombreux LLM de premier plan. Cela inclut les LLM les plus récents d'OpenAI et d'Anthropic, tels que GPT-4o et Claude 3.5 Sonnet.
« Notre travail montre qu'il est possible d'exploiter les informations disponibles sur chaque modèle pour construire des attaques adaptatives simples, que nous définissons comme des attaques spécifiquement conçues pour cibler une défense donnée, et qui, nous l'espérons, serviront de source d'informations précieuse sur le robustesse des LLM frontières », explique Nicolas Flammarion, responsable du TML et co-auteur de l'article.
L'outil clé des chercheurs était un modèle d'invite conçu manuellement et utilisé pour toutes les demandes dangereuses pour un modèle donné. En utilisant un ensemble de données de 50 requêtes nuisibles, ils ont obtenu un score de jailbreak parfait (100%) sur Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B. , Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, Claude-3/3.5 et le R2D2 entraîné de manière contradictoire.
Utiliser l’adaptabilité pour évaluer la robustesse
Le thème commun derrière ces attaques est que l’adaptabilité des attaques est cruciale : différents modèles sont vulnérables à différents modèles d’invite ; par exemple, certains modèles présentent des vulnérabilités uniques basées sur leur interface de programmation d'applications et, dans certains contextes, il est crucial de restreindre l'espace de recherche de jetons en fonction de connaissances préalables.
« Notre travail montre que l'application directe des attaques existantes est insuffisante pour évaluer avec précision la robustesse adverse des LLM et conduit généralement à une surestimation significative de la robustesse. Dans notre étude de cas, aucune approche unique n'a suffisamment bien fonctionné, il est donc crucial de tester à la fois techniques statiques et adaptatives », a déclaré le docteur de l'EPFL. l'étudiant Maksym Andriushchenko et l'auteur principal de l'article.
Cette recherche s'appuie sur le doctorat d'Andriushchenko. thèse, « Comprendre la généralisation et la robustesse dans l'apprentissage profond moderne », qui, entre autres contributions, a étudié les méthodes d'évaluation de la robustesse contradictoire. La thèse a exploré comment évaluer et comparer la résilience des réseaux de neurones aux petites perturbations d'entrée et analysé comment ces changements affectent les sorties du modèle.
Faire progresser la sécurité du LLM
Ce travail a été utilisé pour éclairer le développement de Gemini 1.5 (comme souligné dans leur rapport technique), l'un des derniers modèles publiés par Google DeepMind conçu pour les applications d'IA multimodales. La thèse d'Andriushchenko a également récemment remporté le Patrick Denantes Memorial Prize, créé en 2010 pour honorer la mémoire de Patrick Denantes, doctorant en systèmes de communication à l'EPFL, décédé tragiquement dans un accident d'escalade en 2009.
« Je suis ravi que mon travail de thèse ait conduit à des recherches ultérieures sur les LLM, qui sont très pertinentes et percutantes sur le plan pratique, et c'est merveilleux que Google DeepMind ait utilisé les résultats de nos recherches pour évaluer ses propres modèles », a déclaré Andriushchenko. « J'ai également eu l'honneur de remporter le prix Patrick Denantes, car de nombreux autres étudiants de doctorat très talentueux ont obtenu leur diplôme au cours de la dernière année.
Andriushchenko estime que la recherche sur la sécurité des LLM est à la fois importante et prometteuse. À mesure que la société s’oriente vers l’utilisation des LLM en tant qu’agents autonomes, par exemple en tant qu’assistants personnels d’IA, il est essentiel de garantir leur sécurité et leur alignement avec les valeurs sociétales.
« Il ne faudra pas longtemps avant que les agents IA puissent effectuer diverses tâches pour nous, comme planifier et réserver nos vacances, tâches qui nécessiteraient l'accès à nos calendriers, e-mails et comptes bancaires. C'est là que de nombreuses questions sur la sécurité et l'alignement se posent. .
« Bien qu'il puisse être approprié pour un agent d'IA de supprimer des fichiers individuels sur demande, la suppression d'un système de fichiers entier serait catastrophique pour l'utilisateur. Cela met en évidence les distinctions subtiles que nous devons faire entre les comportements acceptables et inacceptables de l'IA », a-t-il expliqué.
En fin de compte, si nous voulons déployer ces modèles en tant qu’agents autonomes, il est important de s’assurer d’abord qu’ils soient correctement formés pour se comporter de manière responsable et minimiser le risque de causer des dommages graves.
« Nos résultats mettent en évidence une lacune critique dans les approches actuelles en matière de sécurité des LLM. Nous devons trouver des moyens de rendre ces modèles plus robustes, afin qu'ils puissent être intégrés dans notre vie quotidienne en toute confiance, en garantissant que leurs puissantes capacités sont utilisées de manière sûre et responsable », a conclu Flammarion.