Ce sont des instructions pour vos agents IA

Ce sont des instructions pour vos agents IA

Vous avez un podcast ou une vidéo YouTube en cours de lecture chez vous et, sans vous en rendre compte, il commence à émettre un son qui vous est indétectable, mais envoie des commandes à vos assistants IA. L’assistant commence alors à partager des données sensibles avec l’attaquant ou installe des logiciels malveillants. Nous avons déjà eu des attaques par injection rapide et voici maintenant une injection rapide sonore.

L’expérience. Cela ressemble à de la science-fiction, mais c’est tout à fait possible. Une équipe de chercheurs de Chine et de Singapour a découvert un moyen de créer des sons malveillants qui peuvent « détourner » les modèles d’IA vocale, les obligeant à exécuter des commandes sans que vous le sachiez ou que vous puissiez les arrêter. S’adressant à IEEE Spectrum, le responsable de l’étude assure que « cela ne prend qu’une demi-heure pour entraîner ce signal et, comme il est indépendant du contexte, il peut être utilisé pour attaquer un modèle quand vous le souhaitez, indépendamment de ce que dit l’utilisateur ».

Les auteurs ont testé cette technique sur treize modèles d’IA, dont les services de Microsoft et Mistral. Lors du test, ces modèles ont effectué des recherches sensibles, envoyé des e-mails contenant des informations utilisateur et téléchargé des fichiers. Ils ont obtenu un taux de réussite compris entre 79 et 96 %.

Indétectable. Les LALM (Large Audio Language Models) présentent une faille de sécurité critique. Puisqu’ils reçoivent des instructions au format audio, il est possible d’injecter des commandes malveillantes dans des sons manipulés. Pire encore, ces sons ne sont pas des voix avec des instructions, qui seraient assez faciles à détecter, mais ils utilisent plutôt une méthode appelée « mixage convolutif » qui masque le son comme une réverbération ou un écho naturel dans la pièce.

Pourquoi c’est important. Une attaque de ce type change complètement les défenses que nous avons internalisées (ne cliquez pas sur les liens, ne téléchargez pas, ne divulguez pas vos données…). Quelque chose d’aussi inoffensif que la lecture d’une vidéo YouTube, d’un podcast ou le visionnage d’un TikTok en arrière-plan peut déclencher une attaque sans même que nous nous en rendions compte. Si l’on prend également en compte que le pouvoir des agents IA, comme le Gemini Spark récemment annoncé, est précisément d’avoir accès à l’ensemble de notre vie numérique, une attaque de ce type peut faire des ravages.

Détourner l’attention. Pré-instruire le modèle avec des exemples de commandes malveillantes afin qu’il les ignore réduit à peine le succès des attaques d’un lamentable 7 %. De même, demander à l’IA de « réfléchir » pour savoir si sa réponse correspond à ce que l’utilisateur a réellement demandé ne parvient à détecter que 28 % des attaques. Les mesures de sécurité actuelles sont inutiles car la manipulation audio détourne « l’attention » mathématique du modèle, incitant l’IA à exécuter des sorties de haute confiance et rendant impossible la distinction entre une commande utilisateur légitime et une attaque adverse.

Source ouverte. Le « bon » est qu’à l’heure actuelle, ce type d’attaque n’a pu être réalisé qu’avec des modèles à poids ouvert. Cependant, les chercheurs ont constaté qu’une fois l’audio malveillant formé, il peut être transféré vers des modèles fermés de brèche.

Comme nous l’avons dit, les auteurs l’ont mis à l’épreuve avec les services de Mistral et Microsoft. Pour le moment, Mistral n’a pas commenté, mais Microsoft a envoyé la déclaration suivante à IEEE Spectrum :

Nous apprécions le travail des chercheurs pour approfondir la compréhension de ce type de technique. Cette étude évalue la résilience du modèle à travers des interactions contrôlées et directes avec le modèle lui-même, aidant ainsi à définir notre approche du renforcement de la résilience. Dans la pratique, les modèles d’IA sont souvent intégrés aux applications utilisateur, et nous fournissons aux développeurs des outils et des conseils qu’ils peuvent utiliser pour mettre en œuvre des couches de protection supplémentaires afin de protéger les utilisateurs.

Images | Yassine Aït Tahit, Unsplash

À Simseo | Les mots de passe les plus utilisés en Espagne sont piratés en quelques secondes : si le vôtre figure sur cette liste, vous avez un problème