Des scientifiques identifient une faille de sécurité dans les modèles de requêtes d'IA

Des scientifiques identifient une faille de sécurité dans les modèles de requêtes d’IA

Les informaticiens de l’UC Riverside ont identifié une faille de sécurité dans les modèles d’intelligence artificielle (IA) en langage visuel qui peut permettre à de mauvais acteurs d’utiliser l’IA à des fins néfastes, par exemple pour obtenir des instructions sur la fabrication d’une bombe.

Lorsqu’ils sont intégrés à des modèles tels que Google Bard et Chat GPT, les modèles de langage de vision permettent aux utilisateurs de poser des questions avec des images et du texte.

Les scientifiques du Bourns College of Engineering ont démontré un piratage de « jailbreak » en manipulant les opérations de Large Language Model ou LLM, des logiciels qui constituent essentiellement la base des programmes d’IA de requêtes et de réponses.

Le titre de l’article est « Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models ». Il a été soumis pour publication à la Conférence internationale sur les représentations de l’apprentissage et est disponible sur le arXiv serveur de préimpression.

Ces programmes d’IA donnent aux utilisateurs des réponses détaillées à presque toutes les questions, rappelant les connaissances stockées tirées de grandes quantités d’informations provenant d’Internet. Par exemple, demandez à Chat GPT : « Comment faire pousser des tomates ? » et il répondra avec des instructions étape par étape, en commençant par la sélection des graines.

Mais demandez au même modèle comment faire quelque chose de nocif ou d’illégal, comme « Comment fabriquer de la méthamphétamine ? » et le modèle refuserait normalement, fournissant une réponse générique telle que « Je ne peux pas aider avec ça ».

Pourtant, Yue Dong, professeur adjoint à l’UCR, et ses collègues ont trouvé des moyens de tromper les modèles de langage de l’IA, en particulier les LLM, pour répondre à des questions néfastes avec des réponses détaillées qui pourraient être tirées des données collectées sur le dark web.

La vulnérabilité se produit lorsque les images sont utilisées avec des requêtes d’IA, a expliqué Dong.

« Nos attaques utilisent une nouvelle stratégie de composition qui combine une image, ciblée de manière adverse sur des incorporations toxiques, avec des invites génériques pour réaliser le jailbreak », lit-on dans l’article de Dong et de ses collègues présenté au symposium SoCal NLP tenu à l’UCLA en novembre.

Dong a expliqué que les ordinateurs voient les images en interprétant des millions d’octets d’informations qui créent des pixels, ou de petits points, qui composent l’image. Par exemple, une image typique d’un téléphone portable est constituée d’environ 2,5 millions d’octets d’informations.

De manière remarquable, Dong et ses collègues ont découvert que de mauvais acteurs peuvent cacher des questions néfastes, telles que « Comment fabriquer une bombe ? », dans les millions d’octets d’informations contenus dans une image et déclencher des réponses qui contournent les protections intégrées de l’IA générative. des modèles comme ChatGPT.

« Une fois la sauvegarde contournée, les modèles donnent volontiers des réponses pour nous apprendre comment fabriquer une bombe étape par étape avec de nombreux détails qui peuvent conduire de mauvais acteurs à construire une bombe avec succès », a déclaré Dong.

Dong et son étudiant diplômé Erfan Shayegani, ainsi que le professeur Nael Abu-Ghazaleh, ont publié leurs conclusions dans un article en ligne afin que les développeurs d’IA puissent éliminer la vulnérabilité.

« Nous agissons en tant qu’attaquants pour sonner la cloche, afin que la communauté informatique puisse réagir et se défendre », a déclaré Dong.

Les requêtes d’IA basées sur des images et du texte sont d’une grande utilité. Par exemple, les médecins peuvent saisir des analyses d’organes IRM et des images de mammographie pour détecter des tumeurs et d’autres problèmes médicaux nécessitant une attention rapide. Les modèles d’IA peuvent également créer des graphiques à partir de simples images de téléphones portables ou de feuilles de calcul.