Les chercheurs en IA exposent des vulnérabilités critiques au sein des principaux grands modèles de langage

Les chercheurs en IA exposent des vulnérabilités critiques au sein des principaux grands modèles de langage

Les grands modèles linguistiques (LLM) tels que ChatGPT et Bard ont pris d’assaut le monde cette année, les entreprises investissant des millions pour développer ces outils d’IA, et certains chatbots d’IA de premier plan étant évalués en milliards.

Ces LLM, qui sont de plus en plus utilisés dans les chatbots IA, exploitent l’ensemble des informations Internet pour apprendre et informer les réponses qu’ils fournissent aux demandes spécifiées par l’utilisateur, appelées « invites ».

Cependant, des informaticiens de la start-up de sécurité IA Mindgard et de l’Université de Lancaster au Royaume-Uni ont démontré que des morceaux de ces LLM peuvent être copiés en moins d’une semaine pour seulement 50 dollars, et que les informations obtenues peuvent être utilisées pour lancer des attaques ciblées. .

Les chercheurs préviennent que les attaquants exploitant ces vulnérabilités pourraient révéler des informations confidentielles privées, contourner les garde-fous, fournir des réponses incorrectes ou organiser d’autres attaques ciblées.

Détaillés dans un nouvel article qui sera présenté à CAMLIS 2023 (Conférence sur l’apprentissage automatique appliqué pour la sécurité de l’information), les chercheurs montrent qu’il est possible de copier à moindre coût des aspects importants des LLM existants, et ils démontrent des preuves de transfert de vulnérabilités entre différents modèles.

Cette attaque, appelée « sangsue de modèle », fonctionne en s’adressant aux LLM de telle manière (en leur demandant un ensemble d’invites ciblées) afin que les LLM obtiennent des informations pertinentes révélant le fonctionnement du modèle.

L’équipe de recherche, qui a concentré son étude sur ChatGPT-3.5-Turbo, a ensuite utilisé ces connaissances pour créer son propre modèle de copie, qui était 100 fois plus petit mais reproduisait les aspects clés du LLM.

Les chercheurs ont ensuite pu utiliser cette copie du modèle comme terrain d’essai pour déterminer comment exploiter les vulnérabilités de ChatGPT sans détection. Ils ont ensuite pu utiliser les connaissances glanées grâce à leur modèle pour attaquer les vulnérabilités de ChatGPT avec un taux de réussite augmenté de 11 %.

Le Dr Peter Garraghan de l’Université de Lancaster, PDG de Mindgard et chercheur principal de la recherche, a déclaré : « Ce que nous avons découvert est scientifiquement fascinant, mais extrêmement inquiétant. Il s’agit de l’un des tout premiers travaux démontrant empiriquement que les vulnérabilités de sécurité peuvent être transférées avec succès. entre les modèles d’apprentissage automatique fermés et open source, ce qui est extrêmement préoccupant étant donné à quel point l’industrie s’appuie sur des modèles d’apprentissage automatique accessibles au public et hébergés dans des endroits tels que HuggingFace.

Les chercheurs affirment que leurs travaux mettent en évidence que, même si ces puissantes technologies d’IA numérique ont des utilisations claires, il existe des faiblesses cachées, et il peut même y avoir des vulnérabilités communes entre les modèles.

Les entreprises de tous les secteurs industriels investissent actuellement ou se préparent à investir des milliards dans la création de leurs propres LLM pour entreprendre un large éventail de tâches telles que les assistants intelligents. Les services financiers et les grandes entreprises adoptent ces technologies, mais les chercheurs affirment que ces vulnérabilités devraient constituer une préoccupation majeure pour toutes les entreprises qui envisagent de créer ou d’utiliser des LLM tiers.

Le Dr Garraghan a déclaré : « Bien que la technologie LLM soit potentiellement transformatrice, les entreprises et les scientifiques devront réfléchir très attentivement à la compréhension et à la mesure des cyber-risques associés à l’adoption et au déploiement des LLM.