Le NIST publie un manuel de cybersécurité pour l'IA générative

Le Institut national des normes et de la technologie (NIST) des États-Unis a publié un rapport détaillant les types de cyberattaques qui pourraient viser les systèmes d’intelligence artificielle et les moyens de défense possibles contre celles-ci.

L’agence estime que ce rapport est essentiel car les défenses actuelles contre les cyberattaques contre les systèmes d’IA font défaut, à une époque où l’intelligence artificielle envahit de plus en plus tous les aspects de la vie et des affaires.

Le rapport s’intitule « Apprentissage automatique contradictoire : une taxonomie et une terminologie des attaques et des atténuations » et commence par le développement d’une taxonomie et d’une terminologie de l’apprentissage automatique contradictoire, qui à son tour contribuera à sécuriser les systèmes d’IA dans la mesure où les développeurs disposeront d’une base uniforme. à partir duquel former des défenses.

Le rapport couvre deux grands types d’IA : prédictive et générative. Ces systèmes sont formés sur de grandes quantités de données, que les attaquants peuvent tenter de corrompre. Ce n’est pas exagéré, car ces ensembles de données sont trop volumineux pour que les humains puissent les surveiller et les filtrer.

Le NIST souhaite que le rapport aide les développeurs à comprendre les types d’attaques auxquels ils peuvent s’attendre et les approches pour les atténuer, tout en reconnaissant qu’il n’existe pas de panacée pour vaincre les méchants.

Quatre principaux types d’attaques contre les systèmes d’IA

Attaques d’évasion: se produisent après la mise en œuvre d’un système d’intelligence artificielle, lorsqu’un utilisateur tente de modifier une entrée pour modifier la réponse du système. Les exemples incluent la falsification des panneaux de signalisation routière pour gêner les véhicules autonomes.
Attaques d’empoisonnement: se produisent dans la phase de formation par l’introduction de données corrompues. Par exemple, ajouter diverses instances de langage inapproprié dans les enregistrements de conversations, afin que le chatbot les considère comme étant couramment utilisées.
Attaques de confidentialité : ils se produisent lors du déploiement et tentent d’obtenir des informations sensibles sur l’IA ou les données sur lesquelles elle a été formée dans le but d’en abuser. Un attaquant pourrait poser des questions au robot et utiliser les réponses pour effectuer une ingénierie inverse du modèle et trouver ses faiblesses.
Attaques d’abus : elles consistent à insérer de fausses informations dans une source dont l’IA apprend. Contrairement aux attaques de empoisonnementles attaques abusives fournissent à l’IA des informations incorrectes provenant d’une source légitime mais compromise, afin de réutiliser l’IA.

Cependant, chacun de ces types peut être influencé par des critères tels que les objectifs, les capacités et les connaissances de l’attaquant.

« La plupart de ces attaques sont assez faciles à réaliser et nécessitent une connaissance minimale du système d’IA et des capacités limitées de l’adversaire », a déclaré Alina Oprea, co-auteur et professeur à la Northeastern University. « Des attaques d’empoisonnement, par exemple, peuvent être lancées en vérifiant quelques dizaines d’échantillons d’entraînement, ce qui représente un très faible pourcentage de l’ensemble de l’ensemble d’entraînement. »

Les mesures défensives à prendre incluent l’augmentation des données de formation avec des exemples contradictoires lors de la formation utilisant des étiquettes correctes, la surveillance des métriques de performance standard des modèles ML pour détecter une dégradation importante des métriques du classificateur, l’utilisation de techniques de nettoyage des données et d’autres méthodes.