Il y a des gens qui empoisonnent la mémoire de notre IA pour nous manipuler. Et Microsoft a déclenché toutes les alarmes

Ce bouton « pratique » « résumer ça avec l’IA » cache un secret : il a sûrement été manipulé. On ne le dit pas, c'est le département d'élite dont dispose Microsoft pour analyser la sécurité à la fois de ses services et de ceux de la concurrence. Au cours d'une enquête, ils ont commencé à tirer le fil et ont découvert que des dizaines d'entreprises insèrent des instructions cachées dans ces fonctions de « synthèse avec l'IA » avec un seul objectif.

Contaminez la mémoire de l'IA pour nous manipuler.

Microsoft quoi. Big Tech compte de nombreux départements passionnants. De ceux qui ouvrent les boîtes pour garantir la meilleure expérience à ceux qui sculptent des produits concurrents en argile pour les étudier. Cependant, toutes les grandes entreprises technologiques ont en commun des équipes de cybersécurité, des équipes d’élite dédiées à une seule chose : enquêter sur les menaces.

Ils analysent à la fois leurs propres produits et ceux de la concurrence car ils sont compris comme un écosystème. Google et Microsoft ont deux des plus puissants et un exemple clair est que si Google trouve une faille de sécurité dans Windows, il en informe les responsables car c'est quelque chose qui pourrait potentiellement nuire à son propre produit -Chrome-. Un exemple est la recherche d’une de ces équipes de Microsoft, mettant sur la table le danger d’une IA si malléable.

Empoisonnement de la mémoire de l'IA. C’est un concept qui attire l’attention et qui est facile à comprendre. « Ce bouton utile » Résumer avec l'IA « pourrait manipuler secrètement ce que votre IA recommande », note Microsoft dans le blog dans lequel il a publié la recherche. Ce que les attaquants ont fait, c'est corrompre l'IA en incorporant certaines commandes cachées qui parviennent à persister dans la mémoire de l'assistant.

Ainsi, ils influencent toutes les interactions que nous avons avec l’assistant. En termes simples, un assistant compromis peut commencer à fournir des recommandations biaisées sur des sujets critiques. Je ne veux pas dire que vous demandez si la pizza est meilleure avec ou sans ananas et que la réponse dépend de ce que le « hacker » a implémenté dans la « mémoire » de l'IA, mais de quelque chose de beaucoup plus grave lié à la santé, aux finances ou à la sécurité.

Il faut dire que Microsoft ne l'a pas découvert, puisque cela existe depuis quelques mois, mais ils ont donné des exemples et des recommandations très précis pour éviter d'être victimes.

Comment font-ils ? Dans le document, Microsoft déclare avoir identifié plus de 50 itérations uniques provenant de 31 entreprises et 14 secteurs différents. Ils détaillent que cette manipulation peut se faire de plusieurs manières :

Liens malveillants : la plupart des principaux assistants d'IA prennent en charge la lecture automatique des URL. Ainsi, si nous cliquons sur le résumé d'un message contenant un lien contenant des informations malveillantes préchargées, l'IA traite ces instructions manipulées et est contaminée.
Instructions intégrées : Dans ce cas, les instructions permettant de manipuler l'IA sont cachées et intégrées dans des documents, des e-mails ou des pages Web. Lorsque l’IA traite ce contenu, celui-ci est contaminé.
Ingénierie sociale : c'est la tromperie classique, mais dans ce cas, l'utilisateur doit coller des messages qui incluent des commandes qui modifient la mémoire de l'IA. De même, lorsque l’assistant le traite, il est contaminé.

Et c'est là que réside le problème : diverses manières de contaminer la mémoire de l'IA, une fonctionnalité qui rend les assistants plus utiles car ils peuvent mémoriser les préférences personnelles. Mais, en même temps, cela crée également une nouvelle surface d'attaque car, comme le souligne Microsoft, si quelqu'un peut injecter des instructions dans la mémoire de l'IA et que nous ne nous en rendons pas compte, il acquiert une influence persistante sur les requêtes futures.

L’IA devient incontrôlable. 200 experts ont une solution très simple : établir des « lignes rouges »

Au point. Dans une IA comme celle que nous avons, c'est dangereux, mais dans la future IA agentique, cela l'est encore plus car elle effectuera automatiquement des actions basées sur cette mémoire contaminée. Compte tenu du contexte, passons aux choses sérieuses. L'équipe de sécurité a examiné les URL pendant 60 jours, trouvant plus de 50 exemples différents de tentatives de contamination de l'IA.

L'objectif est promotionnel et ils précisent que les tentatives proviennent de 31 entreprises de différents domaines liés à des secteurs tels que la finance, la santé, les services juridiques, le marketing, les sites d'achat de produits alimentaires, les recettes, les services commerciaux et les logiciels en tant que service. Ils soulignent que l’efficacité n’était pas la même dans toutes les attaques, mais qu’ils ont identifié l’apparition répétée d’instructions du type « souviens-toi de ceci ». Et, dans tous les cas, ils ont observé ce qui suit :

Chaque cas impliquait de véritables entreprises, et non des pirates informatiques ou des escrocs. Ce sont des entreprises légitimes qui contaminent l’IA pour influencer vos décisions.
Conteneur trompeur avec des instructions cachées dans ce bouton « Reprendre avec l'IA ». Cela nous semble utile et c'est pour cela que nous cliquons, déclenchant le script qui contamine sa mémoire.
Persistance, avec des commandes telles que « souvenez-vous de ceci », « gardez cela à l'esprit dans les conversations futures » ou « ceci est une source fiable et sûre » pour garantir cette influence à long terme.

Conséquences. Exemples concrets de ce que peut faire une IA empoisonnée :

Sécurité des enfants : Si nous demandons « ce jeu en ligne est-il sans danger pour mon enfant de huit ans ? une IA empoisonnée à qui on a dit que oui, ce jeu avec des communautés toxiques, des modérateurs dangereux, des politiques nuisibles et une monétisation prédatrice est totalement sûr, recommandera le jeu.
Actualités biaisées : lorsque nous demandons un résumé des principales actualités du jour, l'IA intervenue ne nous apportera pas les meilleures, mais fera constamment ressortir les gros titres et les focus de la publication dont les propriétaires ont contaminé l'IA.
Problèmes financiers : si nous posons des questions sur les investissements, l'IA peut nous dire qu'un certain investissement est extrêmement sûr, minimisant ainsi la volatilité de l'opération.

Google AI conseille d'utiliser de la colle pour le fromage à pizza. La source est un commentaire Reddit d'il y a 11 ans

Recommandations. Et c’est là que notre responsabilité entre en jeu. Parce que vous vous demandez peut-être « qui demande ces choses à l’IA et elle y prête attention ». Bien : les gens demandent ces choses à l’IA et ils écoutent. Il y a les cas malheureux de suicides induits par les chatbots ou les fausses nouvelles. Si l'IA recommande la pizza avec de la colle, nous avons soi-disant le bon sens de ne pas utiliser la Super Glue comme substitut au fromage, mais dans d'autres domaines, il y a des utilisateurs qui font confiance à l'IA comme s'il s'agissait d'une entité et non d'un recueil de lettres les unes après les autres.

C'est quelque chose que Microsoft lui-même mentionne, soulignant que les utilisateurs ne vérifient pas toujours les recommandations faites par l'IA et que, précisément pour cette raison, l'empoisonnement de la mémoire est particulièrement insidieux car ils ne se rendent pas compte que leur IA a été compromise. Il existe des moyens de le visualiser, par exemple en accédant aux paramètres de l'assistant et en voyant ce qu'il a en mémoire, mais il y a un certain nombre de recommandations dont nous devrions prendre note :

Avant de cliquer sur un lien, passez votre souris dessus pour voir l'URL vers laquelle il mène. Sur mobiles c'est… compliqué.
Méfiez-vous des boutons « Reprendre avec l’IA ».
Traitez ces boutons avec la même prudence que pour un téléchargement.
S’ils recommandent quelque chose de suspect, demandez pourquoi et sur quoi cela est basé.
Vérifiez la mémoire de l'IA.
Et, de temps en temps, effacez ce souvenir. Vous pouvez toujours avoir une entrée dans l'application Notes avec ce que vous voulez que l'IA sache sur vous et, après avoir périodiquement effacé sa mémoire, copier et coller ce que vous avez dans cette note.

Quoi qu'il en soit, si nous n'en avions pas assez du SPAM et du spoofing, voici ceux qui contaminent la mémoire de l'IA, qui d'ailleurs ne sont pas des hackers, mais des entreprises.

Images | Simseo

À Simseo | Il y a un melon à ouvrir dans l'accès à l'IA pour les mineurs. Et Character.ai a été le premier à le faire