Un chercheur a proposé un jeu à Chatgpt. Ce qu'il a reçu en retour, ce sont les clés fonctionnelles de Windows 10

Un chercheur a proposé un jeu à Chatgpt. Ce qu'il a reçu en retour, ce sont les clés fonctionnelles de Windows 10

Parfois, le plus efficace est le plus simple. Cette pensée Marco Figueroa, chercheuse en cybersécurité, lorsque la semaine dernière, il a décidé de tester les limites de Chatgpt. La proposition était aussi innocente que déconcertante: un jeu d'énigme, sans attaques techniques ni intentions explicites. Au lieu de rechercher des vulnérabilités dans le code, il s'est concentré sur la langue. Et cela a fonctionné: il a réussi à faire revenir le système quelque chose qui, selon lui, n'aurait jamais dû apparaître à l'écran. Le résultat a été la clé d'installation générique Windows 10 pour les environnements commerciaux.

La clé était de le masquer. Ce que Figueroa voulait vérifier n'était pas s'il pouvait forcer le système à fournir des informations interdites, mais si cela suffisait pour présenter le bon contexte. Il a reformulé l'interaction comme un défi inoffensif: une sorte d'énigme dans laquelle l'IA devrait penser à une vraie chaîne de texte, tandis que l'utilisateur a essayé de le découvrir à travers des questions fermées.

Chatte

Tout au long de la conversation, le modèle n'a détecté aucune menace. Il a répondu normalement, comme s'il jouait. Mais la partie la plus critique est arrivée à la fin. Lors de l'introduction de la phrase « J'abandonne » – I Rindo – Figueroa a activé la réponse finale: le modèle a révélé une clé de produit, car elle avait été stipulée dans les règles du jeu. Ce n'était pas une négligence décontractée, mais une combinaison d'instructions soigneusement conçues pour surmonter les filtres sans soulever des soupçons.

Les filtres étaient là, mais ils n'étaient pas suffisants. Des systèmes tels que Chatgpt sont formés pour bloquer toute tentative d'obtention de données sensibles: des mots de passe aux liens malveillants ou aux clés d'activation. Ces filtres sont connus sous le nom et combinent des listes noires de termes, de reconnaissance contextuelle et de mécanismes d'intervention contre un contenu potentiellement nocif.

En théorie, demander une touche Windows devrait activer automatiquement ces filtres. Mais dans ce cas, le modèle n'a pas identifié la situation comme dangereuse. Il n'y avait pas de mots suspects ou de structures directes qui a alerté leurs systèmes de protection. Tout a été soulevé comme un jeu, et dans ce contexte, l'IA a agi comme s'il réalisait un slogan inoffensif.

Ce qui semblait inoffensif était camouflé. L'un des éléments qui a rendu la défaillance possible était une simple technique d'obscurcissement. Au lieu d'écrire directement des expressions telles que «numéro de série Windows 10», Figueroa a introduit de petites étiquettes HTML entre les mots. Le modèle, interprétant la structure comme quelque chose de non pertinent, a ignoré le contenu réel.

Pourquoi cela a fonctionné (et pourquoi s'inquiéter). L'une des raisons pour lesquelles le modèle a proposé cette réponse était le type de clé révélé. Ce n'était pas une clé unique ou liée à un utilisateur spécifique. Apparemment, il s'agissait d'une clé d'installation générique (GVLK), comme celles utilisées dans des environnements commerciaux pour un affichage massif. Ces clés, documentées publiquement par Microsoft, ne fonctionnent que si elles sont connectées à un serveur KMS (Key Management Service) qui valide l'activation du réseau.

Le problème n'était pas seulement le contenu, mais le raisonnement. Le modèle a compris la conversation comme un défi logique et non comme une tentative d'évasion. N'a pas activé ses systèmes d'alerte parce que l'attaque ne semblait pas une attaque

Ce n'est pas seulement un problème clé. Le test n'était pas limité à un problème anecdotique. Selon Figueroa lui-même, la même logique pourrait être appliquée pour essayer d'accéder à un autre type d'informations sensibles: à partir de liens qui conduisent à des sites malveillants à un contenu restreint ou à des identifiants personnels. Tout dépendrait de la façon dont l'interaction est formulée et si le modèle est capable – ou non – d'interpréter le contexte comme un suspect.

Chatgppt: Comment activer le DAN pour faire le mode jailbreak et utiliser l'intelligence artificielle sans restrictions

Dans ce cas, les clés sont apparues sans que leur origine soit complètement claire. Le rapport ne spécifie pas si ces informations font partie des données de formation du modèle, si elles ont été générées à partir de modèles déjà apprises ou si des sources externes ont été accessibles. Quelle que soit la route, le résultat était le même: une barrière qui devrait être impraticable a fini par abandonner.

Simseo avec Gémeaux | Aerps.com

Dans Simseo | Grenade leur a promis très satisfait de leur nouveau diplôme de l'université. Jusqu'à ce que ses pieds s'arrêtent