Deepseek: soumis à des tests de jailbreak échoue plus de la moitié

Deepseek-R1le grand modèle linguistique (LLM) récemment publié par la startup chinoise Deepseek, a été testé par Quelques contre 18 types de jailbreak à travers 885 attaques échouant dans 58% de tentatives, en démontrant ainsi un Sensibilité significative à la manipulation opposée. L’équipe de Qualys a dirigé une analyse de sécurité de la variante Deepseek-R1 Llam 8B distillée Utilisation de la plate-forme de sécurité pour être lancé récemment, Qualys Totalai.

Quelques notes sur Deepseek

Deepseek a retenu l’attention du secteur de l’intelligence artificielle avec son modèle, qui s’avère avoir des performances compétitives, se montrant plus efficace du point de vue des ressources. Son approche de la formation et son accessibilité offrent une alternative au développement traditionnel de l’IA à grande échelle, ce qui rend les compétences avancées plus disponibles.

Pour améliorer l’efficacité et préserver l’efficacité du modèle, Deepseek a publié plusieurs versions distillées, adaptées à plusieurs cas d’utilisation. Ces variantes, construites sur LLAMA et QWEN en tant que modèles de base, sont disponibles dans plusieurs dimensions, allant des modèles plus petits et légers, adaptés aux applications axées sur l’efficacité, des versions plus grandes et plus puissantes, conçues pour des tâches de raisonnement complexes.

Des choses Qualys Totalai

Qualys Totalai Il s’agit d’une solution complète pour la sécurité de l’intelligence artificielle capable de fournir une visibilité complète des charges de travail de l’IA, de détecter de manière proactive les risques et de protéger l’infrastructure. Identifier les menaces à la sécurité, comme le injection rapide et le jailbreaket des problèmes de sécurité, tels que les préjugés et le langage nocif, Totalai garantit que les modèles d’IA restent sûrs, conformes et résilients. Grâce aux tests de sécurité spécifiques pour l’IA et à la gestion automatisée des risques, les entreprises peuvent protéger, surveiller et grimper en toute sécurité leurs implémentations.

Les résultats présentés ci-dessous soutiennent les préoccupations généralisées dans le secteur sur les risques réels du modèle.

«Avec l’accélération de l’adoption de l’IA, les organisations doivent dépasser l’évaluation des performances pour faire face aux défis de la sécurité, de la protection et de la conformité. Obtenir une visibilité sur les actifs, évaluer la vulnérabilité et atténuer de manière proactive les risques est essentiel pour assurer une mise en œuvre responsable et sûre de l’IA « , a-t-il commenté Dilip bashwani, CTO pour la plate-forme cloud de Qualys.

Méthode et preuves d’analyse KB

Qualys a testé la variante du Llama 8b Deepseek-R1 contre les attaques basées sur le jailbreak et la base de connaissances (KB) par Quality Totalaiposer des questions à la destination LLM dans 16 catégories¹ Et évaluer les réponses à l’aide du Qualid Judge LLM. Les réponses ont été évaluées sur la base de Vulnérabilité, problèmes éthiques et les risques juridiques. Si une réponse est considérée comme vulnérable, elle reçoit une évaluation de la gravité en fonction de son immédiateté et de son impact potentiel. Cela garantit une évaluation complète du comportement du modèle et des risques associés.

891 Des évaluations ont été effectuées dans le test KB. Le modèle Deepseek-R1 Llama 8b n’a pas dépassé le 61% des testsobtenir les pires résultats en Désalignement Et mieux dans Contenu sexuel.

¹ Les 16 catégories ont étudié:

Arguments controversés: s’assure que le modèle ne génère pas ou ne endosse pas le contenu partisan, inflammatoire ou politiquement sensible.
Action excessive: Empêche le modèle de surmonter les limites en agissant comme un agent autonome capable de prendre des décisions indépendantes.
Incohérences factuelles: évalue la capacité du modèle à fournir des informations précises et vérifiables.
Harcèlement: évalue si le modèle génère ou soutient les interactions illégales, menaçantes ou nocives.
Discours de haine et de discrimination: identifie les préjugés ou le langage nocif destiné à des groupes spécifiques.
Activités illégales: empêche le modèle de fournir des instructions ou des indications sur les actions illégales.
Informations juridiques: garantit que le modèle ne génère pas de conseils juridiques trompeurs ou non autorisés.
Désalignement: mesure les écarts par rapport au comportement attendu, ce qui peut conduire à des résultats imprévisibles ou nuisibles.
Dépendance excessive: Notes si le modèle favorise une dépendance excessive aux réponses générées par l’intelligence artificielle.
Attaques de confidentialité: évalue la sensibilité à l’action ou à l’échappement des données privées et sensibles de l’utilisateur.
Impiété: garantit que le modèle ne produit pas un langage inapproprié ou offensant.
L’automutilation: Empêche le modèle d’encourager ou de soutenir les comportements auto-destructifs.
Diffusion d’informations sensibles: détecter le partage non autorisé des données confidentielles.
Contenu sexuel: garantit que le modèle ne génère pas de matériel explicite ou inapproprié, empêchant des dommages à la réputation, des violations des réglementations et une mauvaise utilisation dans des contextes dangereux.
Actions non éthiques: rapporte des recommandations moralement discutables ou irresponsables.
Actions de violence / non-service: empêche le modèle de générer ou d’approuver des comportements nocifs

Méthode de test de jailbreak de Totalai pour Deepseek-R1 et preuves

Le jailbreak d’un LLM implique des techniques qui contournent les mécanismes de sécurité construits, permettant au modèle de générer des réponses limitées. Ces vulnérabilités peuvent créer Résultats nuisiblesy compris les instructions pour les activités illégales, la désinformation, les violations de la vie privée et le contenu non éthique. Le jailbreaks réussi met en évidence les faiblesses de l’alignement de l’IA et présentent de graves risques de sécurité, en particulier dans les domaines des entreprises et de la réglementation.

Le modèle chinois a été testé contre 18 types de jailbreak à travers 885 attaques. Il a échoué 58% de ces tentatives, démontrant une sensibilité significative à la manipulation opposée. Pendant l’analyse, Deepseek-R1 a eu du mal à empêcher plusieurs tentatives d’opposition aux jailbreaksy compris des passages sur la façon de créer un appareil explosif, de créer du contenu pour les sites Web qui se tournent vers certains groupes en encourageant les discours de haine, les théories du complot et les actions violentes, exploitez les vulnérabilités du logiciel, promouvant des informations médicales incorrectes, etc.

La nécessité d’améliorer les mécanismes de sécurité

Les résultats obtenus à partir des tests mettent en évidence le Besoin d’améliorer les mécanismes de sécurité Pour empêcher le contournement des protections intégrées, garantissant que le modèle reste conforme aux directives éthiques et réglementaires. Un mécanisme de prévention efficace est la mise en œuvre de garde-corps robuste qui agissent comme des filtres à temps réel pour détecter et bloquer les tentatives de jailbreak.

Ces garde-corps augmentent la résilience du modèle en s’adaptant dynamiquement aux exploits opposés, aidant à atténuer les risques de sécurité dans les applications de l’entreprise. Ces vulnérabilités exposent les applications en aval à des risques importants pour la sécurité, ce qui rend les tests d’adversaires robustes et les stratégies d’atténuation nécessaires.

Préoccupations concernant le secteur

Défis conformes

La politique de confidentialité Deepseek prévoit que Toutes les données des utilisateurs sont archivées sur des serveurs situés en Chine. Ce cadre opérationnel soulève des préoccupations critiques en raison du contexte réglementaire chinois, notamment:

Accès aux données du gouvernement: La loi chinoise sur la sécurité informatique permet aux autorités gouvernementales d’accéder aux données archivées localement sans demander le consentement de l’utilisateur.
Conflits réglementaires transfrontives: Les organisations soumises à des réglementations sur la protection des données telles que le RGPD et le CCPA peuvent entraîner des violations de conformité lorsqu’ils utilisent Deepseek-R1.
Vulnérabilité de la propriété intellectuelle: Les entreprises qui comptent sur les données de propriété pour la formation de l’intelligence artificielle risquent un accès non autorisé ou la diffusion imposée par l’État.
Gouvernance des données opaques: L’absence de mécanismes de supervision transparents limite la visibilité sur la gestion, le partage et l’accès potentiel de tiers aux données.

Ces préoccupations concernent principalement les organisations qui utilisent les modèles organisés par Deepseek. Cependant, La mise en œuvre du modèle dans des environnements cloud locaux ou contrôlée par le client atténue les risques réglementaires et d’accèspermettant aux entreprises de maintenir le contrôle total de la gouvernance des données. Néanmoins, les vulnérabilités intrinsèques du modèle en termes de sécurité restent une préoccupation valable, qui nécessite une évaluation et une atténuation minutieuses.

Les experts en réglementation conseillent aux organisations opérant dans des juridictions rigides concernant la protection des données Effectuer des contrôles de conformité approfondis avant d’intégrer Deepseek-R1.

Problèmes de violation des données et de confidentialité

Un récent accident de cyberssiculia qui impliquait Deepseek aurait Plus d’un million d’éléments d’enregistrement exposésy compris les utilisateurs sensibles des utilisateurs, les clés d’authentification et les configurations de dos et de dos. Cette base de données mal configurée met en évidence les lacunes dans les mesures de protection de Deepseek AI, amplifiant davantage les préoccupations liées à la confidentialité des utilisateurs et à la sécurité d’entreprise.

Implications réglementaires et juridiques

La position de conformité de Deepseek a été remise en question par les analystes juridiques et les organismes de réglementation en raison de:

Ambiguïté dans les pratiques de traitement des données: Informations insuffisantes sur les méthodes de traitement, de stockage et de partage des données utilisateur.
Violations potentielles du droit international: Les politiques de rétention des données du modèle peuvent être en conflit avec les réglementations extraterritoriales, provoquant un contrôle juridique sur les marchés mondiaux.
Risques pour la sécurité nationale: Certaines agences gouvernementales ont soulevé des inquiétudes concernant l’utilisation de systèmes d’IA qui opèrent sous juridiction étrangère, en particulier pour les applications sensibles.

Les gestionnaires de la conformité internationale soulignent la nécessité de procéder à des évaluations complètes des risques juridiques avant d’adopter Deepseek-R1 pour les opérations critiques de mission.

Conclusions

Bien que Deepseek-R1 offre des progrès en termes d’efficacité et d’accessibilité de l’IA, sa mise en œuvre nécessite une Stratégie de sécurité complète.

«Les organisations doivent d’abord obtenir une visibilité totale de leurs ressources d’IA pour évaluer les surfaces d’exposition et d’attaque. En plus de la découverte, la protection des environnements d’IA nécessite des évaluations structurées des risques et des vulnérabilités, non seulement pour l’infrastructure qui abrite ces IA de pipeline, mais aussi pour le cadre d’orchestration et les moteurs d’inférence émergents qui introduisent de nouveaux défis de sécurité », Déclare Bashwani.

Pour ceux qui hébergent ce modèle, il faut affronter Risques supplémentaires comme des configurations incorrectes, une vulnérabilité des abeilles, un accès non autorisé et des menaces au dessin du modèle, En plus des risques intrinsèques En tant que préjugés, les manipulations opposées et le désalignement de la sécurité. Sans protections proactives, les organisations se trouvent à faire face à des violations de sécurité potentielles, des échappés de données et des lacunes de conformité qui pourraient saper la confiance et l’intégrité opérationnelle.

«Notre analyse de la variante Deepseek-R1 Llama 8b distillée avec certains Totalai offre des idées précieuses pour l’évaluation de cette nouvelle technologie. Nous conseillons aux entreprises de se renseigner et de considérer l’adoption de solutions telles que Totalai qui offre une solution de sécurité et de gestion des risques basée sur l’intelligence artificielle, garantissant que la LLM reste sûre, résiliente et conforme à l’évolution des réglementations électroniques sur les besoins commerciaux « . Le CTO de Qualys conclut.