Il est toujours facile de tromper la plupart des chatbots d'IA pour fournir des informations nocives, des résultats de l'étude

Un groupe de chercheurs de l'IA de l'Université Ben Gurion du Néguev, en Israël, a constaté que malgré les efforts de grande envergure (LLM), les chatbots les plus souvent disponibles sont toujours facilement trompés pour générer des informations nuisibles et parfois illégales.

Dans leur article publié sur le arxiv Le serveur préalable, Michael Fire, Yitzhak Elbazis, Adi Wasenstein et Lior Rokach décrivent comment comme faisant partie de leurs recherches concernant les soi-disant LLMS Dark – des modèles conçus intentionnellement avec des garde-corps détendus – ils ont constaté que même les chatbots traditionnels tels que Chatgpt sont encore facilement dupés de donner des réponses qui sont censées être filtrées.

Il ne faut pas longtemps après que les LLM sont devenues courant que les utilisateurs ont constaté qu'ils pouvaient les utiliser pour trouver des informations normalement disponibles uniquement sur le Dark Web; Comment faire du napalm, par exemple, ou comment se faufiler dans un réseau informatique. En réponse, les fabricants LLM ont ajouté des filtres pour empêcher leurs chatbots de générer de telles informations.

Mais ensuite, les utilisateurs ont constaté qu'ils pouvaient de toute façon des LLM pour révéler les informations en utilisant des requêtes intelligemment rédigées, un acte qui s'appelle maintenant Jailbreaking. Dans cette nouvelle étude, l'équipe de recherche suggère que la réponse à Jailbreaking par les fabricants de LLM a été inférieure à ce dont ils s'attendaient.

Les travaux de l'équipe ont commencé comme un effort pour examiner la prolifération et l'utilisation de LLMs sombres, tels que ceux qui sont utilisés pour générer des images pornographiques non autorisées ou des vidéos de victimes malheureuses. Peu de temps après, cependant, ils ont constaté que la plupart des chatbots qu'ils ont testés étaient encore facilement jailbreakés en utilisant des techniques qui avaient été rendues publiques il y a plusieurs mois, suggérant que les fabricants de chatbot ne travaillent pas très dur pour empêcher de tels jailbreaks.

Plus précisément, l'équipe de recherche a constaté ce qu'elle décrive comme une attaque de jailbreak universelle – une attaque qui fonctionne sur la plupart des LLM – qui leur a permis d'obtenir la plupart des LLM qu'ils ont testées pour leur donner des informations détaillées concernant une multitude d'activités illégales, telles que la façon de blanchir de l'argent, de réaliser le commerce d'initié ou même de faire une bombe. Les chercheurs notent également qu'ils ont trouvé des preuves d'une menace croissante des LLMS sombres et de leur utilisation dans une grande variété d'applications.

Ils concluent en notant qu'il est actuellement impossible d'empêcher les LLM d'incorporer des « mauvaises » informations obtenues lors de la formation dans leur base de connaissances; Ainsi, le seul moyen de les empêcher de diffuser ces informations est que les fabricants de ces programmes adoptent une approche plus sérieuse pour développer des filtres appropriés.