Nouvelle méthode de défense AI protège les modèles d'attaques adversaires

Les réseaux de neurones, un type d’intelligence artificielle modélisée sur la connectivité du cerveau humain, entraînent des percées critiques à travers un large éventail de domaines scientifiques. Mais ces modèles sont confrontés à une menace significative des attaques contradictoires, qui peuvent faire dérailler les prédictions et produire des informations incorrectes.

Les chercheurs de Los Alamos National Laboratory ont maintenant été les pionniers d’une nouvelle stratégie de purification qui contrecarre les assauts adversaires et préserve les performances robustes des réseaux de neurones. Leurs recherches sont publiées sur le arxiv serveur de préimprimée.

« Les attaques contradictoires des systèmes d’IA peuvent prendre la forme de minuscules ajustements presque invisibles pour saisir des images, des modifications subtiles qui peuvent diriger le modèle vers le résultat qu’un attaquant veut », a déclaré Manish Bhattarai, informaticien de Los Alamos. « De telles vulnérabilités permettent aux acteurs malveillants d’inonder des canaux numériques avec un contenu trompeur ou nocif sous le couvert de résultats authentiques, constituant une menace directe de confiance et de fiabilité dans les technologies axées sur l’IA. »

La méthode de diffusion itérative de faible rang (Lorid) supprime les interventions adversaires des données d’entrée en exploitant la puissance des processus de diffusion génératrice du débrage en tandem avec des techniques avancées de décomposition du tenseur. Dans une série de tests sur les ensembles de données d’analyse comparative, Lorid a atteint une précision inégalée dans la neutralisation du bruit adversaire dans les scénarios d’attaque, faisant progresser une capacité d’IA plus sécurisée et plus fiable.

Vaincre un bruit dangereux

La diffusion est une technique pour former des modèles d’IA en ajoutant du bruit aux données, puis en enseignant aux modèles à les supprimer. En apprenant à nettoyer le bruit, le modèle d’IA apprend efficacement la structure sous-jacente des données, lui permettant de générer des échantillons réalistes seuls. Dans la purification basée sur la diffusion, le modèle exploite sa représentation apprise des données « propres » pour identifier et éliminer toute interférence adversaire introduite dans l’entrée.

Malheureusement, appliquer trop d’étapes purifiantes du bruit peut éliminer les détails essentiels des données – l’imagine frottant une photo si agressive qu’elle perd de la clarté – tandis que trop peu de pas laissent la place pour des perturbations nocives pour s’attarder.

La méthode Lorid navigue dans ce compromis en utilisant plusieurs cycles de débraillé aux phases antérieures du processus de diffusion, aidant le modèle à éliminer précisément la bonne quantité de bruit sans compromettre le contenu significatif des données, renforçant ainsi le modèle contre les attaques.

Surtout, les entrées adversares révèlent souvent des signatures subtiles de «faible rang» – des difficultés qui peuvent glisser les défenses complexes passées. En tissant dans une technique appelée factorisation du tenseur, Lorid identifie ces aspects de faible rang, renforçant la défense du modèle dans les grands régimes d’attaque contradictoires.

L’équipe a testé Lorid en utilisant des ensembles de données de référence largement reconnus tels que CIFAR-10, CIFAR-100, CELEB-HQ et IMAMENET, évaluant ses performances par rapport aux attaques adversares de la boîte noire et de la boîte blanche de pointe.

Dans les attaques de la boîte blanche, les adversaires ont une pleine connaissance de l’architecture et des paramètres du modèle d’IA. Dans les attaques de Black-Box, ils ne voient que des entrées et des sorties, avec le fonctionnement interne du modèle caché.

À travers chaque test, Lorid a systématiquement surpassé d’autres méthodes, en particulier en termes de précision robuste – l’indicateur clé de la fiabilité d’un modèle lorsqu’il est sous menace adversaire.

Venado aide à débloquer l’efficacité, les résultats

L’équipe a dirigé les modèles Lorid sur Venado, le plus récent supercalcupteur compatible du laboratoire, pour tester une gamme de modèles de vision de pointe contre les attaques adversares de boîte noire et de boîte blanche.

En exploitant plusieurs nœuds de venado pendant plusieurs semaines – un effort ambitieux compte tenu des exigences informatiques massives – ils sont devenus le premier groupe à entreprendre une analyse aussi complète. Le pouvoir de Venado a transformé des mois de simulation en quelques heures, réduisant le calendrier de développement total des années à un mois et réduisant considérablement les coûts de calcul.

Des méthodes de purification robustes peuvent améliorer la sécurité de l’IA partout où les applications de réseau neuronal ou d’apprentissage automatique sont appliquées, y compris potentiellement dans la mission de sécurité nationale du laboratoire.

« Notre méthode a établi une nouvelle référence dans les performances de pointe dans les ensembles de données renommés, excellant dans les scénarios d’attaque de Box-Box et Black-Box », a déclaré Minh Vu, chercheur de Los Alamos AI.

« Cette réalisation signifie que nous pouvons désormais purifier les données – qu’elles soient d’origine privée ou publique – avant de l’utiliser pour former des modèles fondamentaux, assurant leur sécurité et leur intégrité tout en fournissant systématiquement des résultats précis. »