La nouvelle technique peut faire de l'IA «voir» ce que vous voulez
Les chercheurs ont démontré une nouvelle façon d'attaquer les systèmes de vision informatique de l'intelligence artificielle, leur permettant de contrôler ce que l'AI «voit». La recherche montre que la nouvelle technique, appelée Risingattack, est efficace pour manipuler tous les systèmes de vision informatique d'IA les plus utilisés.
La question est de soi-disant «attaques contradictoires», dans lesquelles quelqu'un manipule les données alimentées dans un système d'IA pour contrôler ce que le système voit ou ne voit pas, dans une image. Par exemple, quelqu'un peut manipuler la capacité d'une IA à détecter les feux de circulation, les piétons ou d'autres voitures – ce qui entraînerait des problèmes pour les véhicules autonomes. Ou un pirate peut installer du code sur une machine à rayons X qui fait que un système d'IA fait des diagnostics inexacts.
« Nous voulions trouver un moyen efficace de pirater les systèmes de vision de l'IA car ces systèmes de vision sont souvent utilisés dans des contextes qui peuvent affecter la santé et la sécurité humaines – des véhicules autonomes aux technologies de santé aux applications de sécurité », explique Tianfu Wu, co-corresponding auteur d'un article sur le travail et professeur associé de génie électrique et informatique à la North Carolina State University.
« Cela signifie qu'il est très important que ces systèmes d'IA soient sécurisés. L'identification des vulnérabilités est une étape importante dans la sécurisation de ces systèmes, car vous devez identifier une vulnérabilité pour se défendre contre elle. »
Risingattack se compose d'une série d'opérations, dans le but d'apporter le moins de modifications à une image qui permettra aux utilisateurs de manipuler ce que la vision AI « voit ».
Tout d'abord, Risingattack identifie toutes les caractéristiques visuelles de l'image. Le programme exécute également une opération pour déterminer laquelle de ces fonctionnalités est la plus importante pour atteindre l'objectif de l'attaque.
« Par exemple », dit Wu, « si l'objectif de l'attaque est d'empêcher l'IA d'identifier une voiture, quelles fonctionnalités de l'image sont les plus importantes pour que l'IA puisse identifier une voiture à l'image? »
Risingattack calcule ensuite à quel point le système d'IA est sensible aux modifications des données et, plus précisément, à quel point l'IA est sensible aux modifications des données des caractéristiques clés.
« Cela nécessite une certaine puissance de calcul, mais nous permet d'apporter de très petites modifications ciblées aux principales caractéristiques qui permettent à l'attaque de réussir », explique Wu. « Le résultat final est que deux images peuvent sembler identiques aux yeux humains, et nous pourrions clairement voir une voiture dans les deux images. Mais en raison de Risingattack, l'IA verrait une voiture dans la première image mais ne verrait pas de voiture dans la deuxième image.
« Et la nature de Risingattack signifie que nous pouvons influencer la capacité de l'IA à voir l'une des 20 ou 30 meilleurs objectifs qu'il a été formé pour identifier. Donc, cela pourrait être une voiture, un piéton, un vélo, un panneau d'arrêt, etc. »
Les chercheurs ont testé Risingattack contre les quatre programmes Vision AI les plus couramment utilisés: RESNET-50, DENSENET-121, VITB et DEIT-B. La technique a été efficace pour manipuler les quatre programmes.
« Bien que nous ayons démontré la capacité de Risingattack à manipuler les modèles de vision, nous sommes maintenant en train de déterminer l'efficacité de la technique pour attaquer d'autres systèmes d'IA, comme les modèles de gros langues », explique Wu.
« Pour aller de l'avant, l'objectif est de développer des techniques qui peuvent se défendre avec succès contre de telles attaques. »
L'article, «Les perturbations adversaires sont formées par des combinaisons linéaires de manière itérative des droits singuliers du Jacobian adversaire», sera présenté le 15 juillet à la Conférence internationale de l'apprentissage automatique (ICML 2025), qui se tiendra à Vancouver, Canada.