il existe un type d'attaque impossible à bloquer
Le navigateur n'est plus seulement une fenêtre sur Internet et devient un outil qui fonctionne également au sein du Web. Dans le cas du mode agent dans ChatGPT Atlas, OpenAI explique que son agent affiche les pages et peut effectuer des actions, des clics et des frappes au clavier dans le navigateur, tout comme le ferait une personne. La promesse est claire : aider dans les flux du quotidien avec le même contexte et les mêmes données. La conséquence est également que plus nous concentrons de pouvoir sur un agent, plus il devient attrayant pour quiconque cherche à le manipuler.
Qu'est-ce qu'une injection rapide. En termes simples, une injection rapide est une technique qui cherche à introduire des instructions malveillantes dans un contenu apparemment normal afin qu'un système d'intelligence artificielle les interprète comme des ordres légitimes. IBM le décrit comme un type de cyberattaque contre des modèles de langage dans lequel des entrées malveillantes sont camouflées comme des invites valides pour manipuler le comportement du système. L’objectif peut aller de forcer des réponses inappropriées à provoquer des fuites d’informations ou à détourner une tâche, sans qu’il soit nécessaire d’exploiter les vulnérabilités logicielles classiques.
La racine du problème est moins « magique » qu’il n’y paraît et plus structurelle. De nombreuses applications de modèle de langage combinent les instructions du développeur et les entrées de l'utilisateur sous forme de chaînes de texte en langage naturel, sans séparation rigide par type de données. Le modèle décide des priorités en fonction des modèles appris et du contexte du texte lui-même, et non parce qu'il existe une frontière infaillible entre « ordre » et « contenu ». Si une instruction externe est formulée de manière convaincante, elle peut prendre du poids même si ce n’est pas le cas.
Quand le contexte devient insondable. Le risque est amplifié lorsque l’agent ne traite pas un seul message, mais passe plutôt par des sources très différentes au sein d’un même ordre. OpenAI met en garde contre une surface pratiquement illimitée, des e-mails et pièces jointes, des invitations de calendrier, des documents partagés, des forums, des réseaux sociaux et des pages Web arbitraires. Au cours de ce parcours, l’agent peut rencontrer des instructions peu fiables mélangées à du contenu légitime. L'utilisateur ne voit pas toujours chaque étape, mais le système les consomme, et c'est là que la manipulation peut s'infiltrer.

Ce qui est troublant, c’est que cela peut s’intégrer dans des flux de travail ordinaires sans déclencher d’alarme évidente. La signature AI décrit un exemple dans lequel un attaquant « amorce » une boîte de réception avec un e-mail malveillant, et plus tard, lorsque l'utilisateur demande une tâche inoffensive, l'agent lit ce message lors d'une exécution normale. Dans un cas, le résultat est volontairement extrême, l’agent finit par envoyer un email de démission au lieu de rédiger une réponse automatique. Tout cela grâce à une attaque extérieure.
Pourquoi il n’existe pas de blindage parfait. En matière de cybersécurité, il existe une idée largement répandue selon laquelle aucun système n’est complètement sécurisé et OpenAI considère l’injection rapide comme un problème persistant. Dans son texte, il le formule ainsi : « Nous espérons que les attaquants continueront à s'adapter. L'injection de messages d'incitation, tels que les escroqueries et l'ingénierie sociale sur le Web, ne sera pas complètement résolue. » L’objectif n’est donc pas de promettre l’invulnérabilité, mais d’augmenter le coût de l’attaque et de réduire l’impact en cas d’échec.

Dans ce contexte, ceux dirigés par Sam Altman expliquent avoir déployé une mise à jour de sécurité pour l'agent Atlas motivée par une nouvelle classe d'attaques découvertes grâce à un initié automatisé. La société affirme que la livraison comprend un modèle d'agent formé de manière contradictoire et des protections renforcées autour du système, destinées à améliorer sa résistance aux instructions indésirables pendant la navigation.
Ce que nous faisons compte toujours. OpenAI recommande d'utiliser l'agent hors ligne lorsque vous n'avez pas besoin d'accéder à des sites avec un compte et d'examiner calmement les demandes de confirmation pour les actions sensibles, telles que l'envoi d'un e-mail ou la finalisation d'un achat. Il conseille également de donner des instructions explicites et limitées, en évitant les missions trop larges qui obligent l'agent à parcourir de gros volumes de contenus. Cela n’élimine pas les risques, mais réduit les possibilités de manipulation et aide les contrôles existants à fonctionner comme prévu.
Images | OpenAI
À Simseo | À quelle fréquence devons-nous changer TOUS nos mots de passe selon trois experts en cybersécurité
