Un nouveau rapport identifie les types de cyberattaques qui manipulent le comportement des systèmes d'IA

Les adversaires peuvent délibérément confondre ou même « empoisonner » les systèmes d’intelligence artificielle (IA) pour les faire fonctionner mal – et leurs développeurs ne peuvent recourir à aucune défense infaillible. Les informaticiens du National Institute of Standards and Technology (NIST) et leurs collaborateurs identifient ces vulnérabilités ainsi que d’autres de l’IA et de l’apprentissage automatique (ML) dans une nouvelle publication.

Leur travail, intitulé Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations, fait partie des efforts plus larges du NIST visant à soutenir le développement d’une IA digne de confiance, et peut aider à mettre en pratique le cadre de gestion des risques liés à l’IA du NIST. Cette publication, fruit d’une collaboration entre le gouvernement, le monde universitaire et l’industrie, vise à aider les développeurs et les utilisateurs d’IA à mieux comprendre les types d’attaques auxquels ils peuvent s’attendre ainsi que les approches permettant de les atténuer, étant entendu qu’il n’existe pas de solution miracle.

« Nous fournissons un aperçu des techniques et méthodologies d’attaque qui prennent en compte tous les types de systèmes d’IA », a déclaré Apostol Vassilev, informaticien du NIST, l’un des auteurs de la publication. « Nous décrivons également les stratégies d’atténuation actuelles rapportées dans la littérature, mais ces défenses disponibles manquent actuellement de garanties solides qu’elles atténuent pleinement les risques. Nous encourageons la communauté à proposer de meilleures défenses. »

Les systèmes d’IA ont imprégné la société moderne, travaillant dans des domaines allant de la conduite de véhicules à l’aide aux médecins pour diagnostiquer des maladies, en passant par l’interaction avec les clients en tant que chatbots en ligne. Pour apprendre à effectuer ces tâches, ils sont formés sur de grandes quantités de données : par exemple, un véhicule autonome peut voir des images d’autoroutes et de rues avec des panneaux de signalisation, tandis qu’un chatbot basé sur un grand modèle de langage (LLM) peut être exposé à des images d’autoroutes et de rues avec des panneaux de signalisation, par exemple. enregistrements de conversations en ligne. Ces données aident l’IA à prédire comment réagir dans une situation donnée.

Un problème majeur est que les données elles-mêmes peuvent ne pas être fiables. Ses sources peuvent être des sites Web et des interactions avec le public. Il existe de nombreuses opportunités pour les acteurs malveillants de corrompre ces données, à la fois pendant la période de formation d’un système d’IA et après, tandis que l’IA continue d’affiner ses comportements en interagissant avec le monde physique. Cela peut entraîner un fonctionnement indésirable de l’IA. Les chatbots, par exemple, peuvent apprendre à réagir par un langage abusif ou raciste lorsque leurs garde-fous sont contournés par des invites malveillantes soigneusement conçues.

« Pour la plupart, les développeurs de logiciels ont besoin que davantage de personnes utilisent leur produit afin qu’il puisse s’améliorer avec l’exposition », a déclaré Vassilev. « Mais rien ne garantit que l’exposition sera bonne. Un chatbot peut diffuser des informations erronées ou toxiques lorsqu’il y est invité dans un langage soigneusement conçu. »

En partie parce que les ensembles de données utilisés pour entraîner une IA sont beaucoup trop volumineux pour que les gens puissent les surveiller et les filtrer avec succès, il n’existe pas encore de moyen infaillible de protéger l’IA contre les erreurs d’orientation. Pour aider la communauté des développeurs, le nouveau rapport propose un aperçu des types d’attaques que ses produits d’IA pourraient subir et des approches correspondantes pour réduire les dégâts.

Le rapport examine les quatre principaux types d’attaques : les attaques d’évasion, d’empoisonnement, de confidentialité et d’abus. Il les classe également selon plusieurs critères tels que les buts et objectifs de l’attaquant, ses capacités et ses connaissances.

Les attaques d’évasion, qui se produisent après le déploiement d’un système d’IA, tentent de modifier une entrée pour changer la façon dont le système y répond. Les exemples pourraient inclure l’ajout de marquages aux panneaux d’arrêt pour qu’un véhicule autonome les interprète à tort comme des panneaux de limitation de vitesse ou la création de marquages de voie déroutants pour faire dévier le véhicule de la route.

Les attaques d’empoisonnement se produisent pendant la phase de formation en introduisant des données corrompues. Un exemple serait de glisser de nombreuses instances de langage inapproprié dans les enregistrements de conversations, de sorte qu’un chatbot interprète ces instances comme un langage suffisamment courant pour être utilisé dans ses propres interactions avec les clients.

Les attaques contre la vie privée, qui se produisent lors du déploiement, sont des tentatives d’obtenir des informations sensibles sur l’IA ou les données sur lesquelles elle a été formée afin d’en faire un mauvais usage. Un adversaire peut poser de nombreuses questions légitimes à un chatbot, puis utiliser les réponses pour effectuer une ingénierie inverse du modèle afin de trouver ses points faibles ou de deviner ses sources. L’ajout d’exemples indésirables à ces sources en ligne pourrait amener l’IA à se comporter de manière inappropriée, et faire en sorte que l’IA désapprenne ces exemples indésirables spécifiques après coup peut être difficile.

Les attaques d’abus impliquent l’insertion d’informations incorrectes dans une source, telle qu’une page Web ou un document en ligne, qu’une IA absorbe ensuite. Contrairement aux attaques d’empoisonnement susmentionnées, les attaques abusives tentent de fournir à l’IA des informations incorrectes provenant d’une source légitime mais compromise afin de réutiliser l’utilisation prévue du système d’IA.

« La plupart de ces attaques sont assez faciles à monter et nécessitent une connaissance minimale du système d’IA et des capacités contradictoires limitées », a déclaré la co-auteure Alina Oprea, professeur à la Northeastern University. « Les attaques d’empoisonnement, par exemple, peuvent être organisées en contrôlant quelques dizaines d’échantillons d’entraînement, ce qui ne représenterait qu’un très petit pourcentage de l’ensemble de l’ensemble d’entraînement. »

Les auteurs, qui comprenaient également Alie Fordyce et Hyrum Anderson, chercheurs de Robust Intelligence Inc., décomposent chacune de ces classes d’attaques en sous-catégories et ajoutent des approches pour les atténuer, bien que la publication reconnaisse que les défenses que les experts en IA ont conçues jusqu’à présent pour les attaques contradictoires. sont au mieux incomplets. La prise de conscience de ces limites est importante pour les développeurs et les organisations qui cherchent à déployer et à utiliser la technologie de l’IA, a déclaré Vassilev.

« Malgré les progrès significatifs réalisés par l’IA et l’apprentissage automatique, ces technologies sont vulnérables aux attaques qui peuvent provoquer des pannes spectaculaires aux conséquences désastreuses », a-t-il déclaré. « Il existe des problèmes théoriques liés à la sécurisation des algorithmes d’IA qui n’ont tout simplement pas encore été résolus. Si quelqu’un dit le contraire, il vend de l’huile de serpent. »