Une technique simple pour défendre ChatGPT contre les attaques de jailbreak

Les grands modèles linguistiques (LLM), des modèles basés sur l’apprentissage profond et formés pour générer, résumer, traduire et traiter des textes écrits, ont attiré une attention considérable après la sortie de la plateforme conversationnelle ChatGPT d’Open AI. Bien que ChatGPT et les plateformes similaires soient désormais largement utilisées pour un large éventail d’applications, elles pourraient être vulnérables à un type spécifique de cyberattaque produisant des réponses biaisées, peu fiables, voire offensantes.

Des chercheurs de l’Université des sciences et technologies de Hong Kong, de l’Université des sciences et technologies de Chine, de l’Université Tsinghua et de Microsoft Research Asia ont récemment mené une étude sur l’impact potentiel de ces attaques et les techniques qui pourraient protéger les modèles contre elles. Leur article, publié dans Intelligence des machines naturellesintroduit une nouvelle technique inspirée de la psychologie qui pourrait aider à protéger ChatGPT et les plateformes conversationnelles similaires basées sur LLM contre les cyberattaques.

« ChatGPT est un outil d’intelligence artificielle à impact sociétal avec des millions d’utilisateurs et une intégration dans des produits tels que Bing », écrivent Yueqi Xie, Jingwei Yi et leurs collègues dans leur article. « Cependant, l’émergence d’attaques de jailbreak menace particulièrement son utilisation responsable et sécurisée. Les attaques de jailbreak utilisent des invites contradictoires pour contourner les garanties éthiques de ChatGPT et engendrer des réponses nuisibles. »

L’objectif principal des travaux récents de Xie, Yi et de leurs collègues était de mettre en évidence l’impact que les attaques de jailbreak peuvent avoir sur ChatGPT et d’introduire des stratégies de défense viables contre ces attaques. Les attaques de jailbreak exploitent essentiellement les vulnérabilités des LLM pour contourner les contraintes définies par les développeurs et susciter des réponses de modèle qui seraient généralement restreintes.

« Cet article étudie les problèmes graves mais sous-explorés créés par les jailbreaks ainsi que les techniques défensives potentielles », expliquent Xie, Yi et leurs collègues dans leur article. « Nous introduisons un ensemble de données de jailbreak avec différents types d’invites de jailbreak et d’instructions malveillantes. »

Les chercheurs ont d’abord compilé un ensemble de données comprenant 580 exemples d’invites de jailbreak conçues pour contourner les restrictions qui empêchent ChatGPT de fournir des réponses jugées « immorales ». Cela inclut des textes peu fiables qui pourraient alimenter la désinformation ainsi que des contenus toxiques ou abusifs.

Lorsqu’ils ont testé ChatGPT sur ces invites de jailbreak, ils ont constaté qu’il tombait souvent dans leur « piège », produisant le contenu malveillant et contraire à l’éthique qu’ils demandaient. Xie, Yi et leurs collègues ont ensuite décidé de concevoir une technique simple mais efficace qui pourrait protéger ChatGPT contre les attaques de jailbreak soigneusement conçues.

La technique qu’ils ont créée s’inspire du concept psychologique des rappels personnels, des coups de pouce qui peuvent aider les gens à se souvenir des tâches qu’ils doivent accomplir, des événements auxquels ils sont censés assister, etc. L’approche de défense des chercheurs, appelée auto-rappel en mode système, est également conçue pour rappeler à Chat-GPT que les réponses qu’il fournit doivent suivre des directives spécifiques.

« Cette technique encapsule la requête de l’utilisateur dans une invite système qui rappelle à ChatGPT de répondre de manière responsable », écrivent les chercheurs. « Les résultats expérimentaux démontrent que les auto-rappels réduisent considérablement le taux de réussite des attaques de jailbreak contre ChatGPT de 67,21 % à 19,34 %. »

Jusqu’à présent, les chercheurs ont testé l’efficacité de leur technique à l’aide de l’ensemble de données qu’ils ont créé et ont constaté qu’elle avait obtenu des résultats prometteurs, réduisant le taux de réussite des attaques, sans pour autant les empêcher toutes. À l’avenir, cette nouvelle technique pourrait être encore améliorée pour réduire la vulnérabilité des LLM à ces attaques, tout en inspirant potentiellement le développement d’autres stratégies de défense similaires.

« Notre travail documente systématiquement les menaces posées par les attaques de jailbreak, introduit et analyse un ensemble de données pour évaluer les interventions défensives et propose une technique d’auto-rappel psychologiquement inspirée qui peut efficacement atténuer les jailbreaks sans formation supplémentaire », résument les chercheurs dans leur article.