L'approche du jailbreak «Indiana Jones» met en évidence les vulnérabilités des LLM existantes

Les modèles de grands langues (LLM), tels que le modèle qui sous-tend le fonctionnement de l’agent conversationnel Chatgpt, devient de plus en plus répandu dans le monde entier. Comme de nombreuses personnes se tournent maintenant vers des plateformes basées sur LLM pour trouver des informations et écrire des textes spécifiques au contexte, la compréhension de leurs limites et de leurs vulnérabilités devient de plus en plus vitale.

Des chercheurs de l’Université de Nouvelle-Galles du Sud en Australie et de l’Université technologique de Nanyang à Singapour ont récemment identifié une nouvelle stratégie pour contourner les filtres de sécurité intégrés d’un LLM, également connus sous le nom de jailbreak. La nouvelle méthode qu’ils ont identifiée, surnommée Indiana Jones, a été présentée pour la première fois dans un article publié sur le arxiv serveur de préimprimée.

« Notre équipe a une fascination pour l’histoire, et certains d’entre nous l’étudient même profondément », a déclaré Yuekang Li, auteur principal du journal, à Tech Xplore. « Lors d’une discussion occasionnelle sur les tristement célèbres méchants historiques, nous nous sommes demandé: les LLM pourraient-elles être amadies pour enseigner aux utilisateurs comment devenir ces chiffres? Notre curiosité nous a amenés à mettre cela à l’épreuve, et nous avons découvert que les LLM pourraient en effet être jailbreuses de cette manière. «

L’objectif à long terme des travaux récents de Li et de ses collègues était d’exposer les vulnérabilités des LLM aux attaques jailbreaker, car cela pourrait aider à concevoir de nouvelles mesures de sécurité pour atténuer ces vulnérabilités. Pour ce faire, les chercheurs ont expérimenté les LLM et conçu la technique de jailbreak entièrement automatisée de l’Indiana Jones qui a contourné les filtres de sécurité des modèles.

« Indiana Jones est un outil de dialogue adaptable qui rationalise les attaques de jailbreak avec un seul mot-clé », a expliqué Li. « Il invite le LLM sélectionné à énumérer les chiffres ou les événements historiques pertinents pour le mot-clé et affine de manière itérative ses requêtes sur cinq tours, en extrayant finalement un contenu très pertinent et potentiellement nocif.

« Pour maintenir la profondeur du dialogue, nous avons mis en œuvre un vérificateur qui garantit que les réponses restent cohérentes et alignées sur le mot-clé initial. Par exemple, si un utilisateur entre sur le voleur de banque », Indiana Jones guidera le LLM pour discuter des voleurs de banque notables, progressivement, progressivement affiner leurs méthodes jusqu’à ce qu’ils deviennent applicables aux scénarios modernes. «

Essentiellement, l’Indiana Jones s’appuie sur l’activité coordonnée de trois LLM spécialisés, qui conversent entre eux pour dériver des réponses aux invites soigneusement écrites. Les chercheurs ont constaté que cette approche s’approvisionne avec succès que les filtres de sécurité des modèles auraient dû filtrer.

Dans l’ensemble, les résultats de l’équipe exposent les vulnérabilités des LLM, montrant qu’ils pourraient facilement être adaptés et utilisés pour des activités illégales ou malveillantes. Li et ses collègues espèrent que leur étude inspirera le développement de nouvelles mesures pour renforcer la sécurité et la sécurité des LLM.

« L’informatique clé de notre étude est que les attaques de jailbreak réussies exploitent le fait que les LLM ont des connaissances sur les activités malveillantes – la connaissance qu’ils n’auraient sans doute pas dû apprendre en premier lieu », a déclaré Li.

« Différentes techniques de jailbreak ne trouvent que des moyens d’amadouer les modèles pour révéler ces informations » interdites « . Notre recherche introduit une nouvelle approche pour inciter les LLM à exposer de telles connaissances, offrant une nouvelle perspective sur la façon dont ces vulnérabilités peuvent être exploitées. »

Une nouvelle approche jailbreaking met en évidence les vulnérabilités des LLM existantes

Alors que les LLM semblent vulnérables aux attaques jailbreakées comme celles démontrées par les chercheurs, certains développeurs pourraient stimuler leur résilience contre ces attaques en introduisant d’autres couches de sécurité. Par exemple, Li et ses collègues suggèrent d’introduire des mécanismes de filtrage plus avancés pour détecter ou bloquer des invites malveillantes ou des réponses générées par le modèle avant que les informations restreintes n’atteignent un utilisateur final.

« Le renforcement de ces garanties au niveau de l’application pourrait être une solution plus immédiate et efficace tandis que les défenses au niveau du modèle continuent d’évoluer », a déclaré Li. « Dans nos prochaines études, nous prévoyons de nous concentrer sur le développement de stratégies de défense pour les LLM, y compris des techniques de désapprentissage des machines qui pourraient« supprimer »sélectivement les connaissances potentiellement nocives que les LLM ont acquises.

Selon Li, le développement de nouvelles mesures pour renforcer la sécurité des LLM est de la plus haute importance. À l’avenir, il pense que ces mesures devraient se concentrer sur deux aspects clés, à savoir la détection des menaces ou des invites malveillantes plus efficacement et contrôler les connaissances auxquelles les modèles ont accès (c.-à-d. Fournir des modèles avec des sources d’informations externes, car cela simplifie le filtrage des nocifs contenu).

« Au-delà des efforts de notre équipe, je pense que la recherche sur l’IA devrait prioriser les modèles en développement avec des capacités de raisonnement solide et d’apprentissage en contexte, leur permettant de récupérer et de traiter dynamiquement les connaissances externes plutôt que de tout mémoriser », a ajouté Li.

« Cette approche reflète comment une personne intelligente sans expertise de domaine consulterait Wikipedia ou d’autres sources fiables pour résoudre des problèmes. En nous concentrant sur ces progrès, nous pouvons travailler à la construction de LLM qui sont à la fois plus sûrs et plus adaptables. »