Deepseek présente un risque de sécurité «sévère», disent les chercheurs

Une nouvelle étude de l’Université de Bristol a révélé des risques de sécurité importants associés à un nouveau rival de Chatgpt Deepseek.

Deepseek est une variation des modèles de grande langue (LLMS) qui utilise le raisonnement de la chaîne de pensée (COT), qui améliore la résolution de problèmes grâce à un processus de raisonnement étape par étape plutôt que de fournir des réponses directes.

L’analyse du groupe de cybersécurité de Bristol révèle que si le COT refuse les demandes nocives à un taux plus élevé, leur processus de raisonnement transparent peut involontairement exposer des informations nocives que les LLM traditionnelles pourraient ne pas révéler explicitement.

Cette étude, dirigée par Zhiyuan Xu, fournit des informations critiques sur les défis de sécurité des modèles de raisonnement de COT et souligne le besoin urgent de garanties améliorées. Alors que l’IA continue d’évoluer, assurer le déploiement responsable et le raffinement continu des mesures de sécurité seront primordiaux.

Le co-auteur, le Dr Sana Belguith de la Bristol’s School of Computer Science, a expliqué: « La transparence des modèles COT tels que le processus de raisonnement de Deepseek qui imite la pensée humaine les rend très adaptés à un large usage public.

« Mais lorsque les mesures de sécurité du modèle sont contournées, elle peut générer un contenu extrêmement nocif, qui combiné à une large utilisation publique, peut entraîner de graves risques de sécurité. »

Les modèles de grande langue (LLMS) sont formés sur de vastes ensembles de données qui subissent un filtrage pour supprimer le contenu nocif. Cependant, en raison des limitations technologiques et des ressources, le contenu nuisible peut persister dans ces ensembles de données. De plus, les LLM peuvent reconstruire des informations nocives même à partir de données incomplètes ou fragmentées.

Le renforcement de l’apprentissage de la rétroaction humaine (RLHF) et du réglage fin supervisé (SFT) sont couramment utilisés comme mécanismes de formation à la sécurité pendant la pré-formation pour empêcher le modèle de générer un contenu nocif. Mais il a été prouvé que les attaques à réglage fin de contourner ou même de remplacer ces mesures de sécurité dans les LLM traditionnelles.

Dans cette recherche, l’équipe a découvert que les modèles compatibles avec COT généraient non seulement du contenu nocif à un taux plus élevé que les LLM traditionnels, ils ont également fourni des réponses plus complètes, précises et potentiellement dangereuses en raison de leur processus de raisonnement structuré, lorsqu’ils sont exposés aux mêmes attaques . Dans un exemple, Deepseek a fourni des conseils détaillés sur la façon de réaliser un crime et de s’en tirer.

Les modèles de raisonnement sur le COT affiné s’attaquent souvent à des rôles, comme un professionnel de la cybersécurité hautement qualifiée, lors du traitement des demandes nocives. En s’immergeant dans ces identités, ils peuvent générer des réponses très sophistiquées mais dangereuses.

Le co-auteur, le Dr Joe Gardiner, a ajouté: « Le danger des attaques de réglage fin sur des modèles de grandes langues est qu’ils peuvent être effectués sur un matériel relativement bon marché qui est bien au moyen d’un utilisateur individuel pour un petit coût et en utilisant de petits accessions publiques ensembles de données afin d’affiner le modèle en quelques heures.

« Cela a le potentiel de permettre aux utilisateurs de profiter des énormes ensembles de données de formation utilisés dans de tels modèles pour extraire ces informations nocives qui peuvent instruire un individu d’effectuer des dommages réels, tout en opérant dans un cadre complètement hors ligne avec peu de chances de détection.

« Une enquête plus approfondie est nécessaire sur les stratégies d’atténuation potentielles pour les attaques de réglage fin.

Bien que les modèles de raisonnement en cotons possèdent intrinsèquement une forte sensibilisation à la sécurité, générant des réponses qui s’alignent étroitement avec les requêtes des utilisateurs tout en maintenant la transparence dans leur processus de réflexion, il peut s’agir d’un outil dangereux entre les mauvaises mains. Cette étude souligne qu’avec un minimum de données, les modèles de raisonnement COT peuvent être affinés pour présenter des comportements très dangereux dans divers domaines nocifs, posant des risques de sécurité.

Le Dr Belguith a expliqué: « Le processus de raisonnement de ces modèles n’est pas entièrement à l’abri de l’intervention humaine, ce qui soulève la question de savoir si les recherches futures pourraient explorer des attaques ciblant le processus de pensée du modèle lui-même.

«Les LLM en général sont utiles; cependant, le public doit être conscient de ces risques de sécurité.

« La communauté scientifique et les entreprises technologiques offrant ces modèles sont tous deux responsables de la propagation de la sensibilisation et de la conception de solutions pour atténuer ces dangers. »