Sécuriser la porte dérobée dans votre modèle d'apprentissage automatique robuste

Le déclencheur distribué visible est illustré à la figure 1(a) et l’étiquette cible est sept (7). Les données d’entraînement sont modifiées. Nous le voyons sur la figure 1(b) et le modèle est formé avec ces données empoisonnées. Les entrées sans déclencheur seront correctement classées et celles avec déclencheur seront classées de manière incorrecte lors de l’inférence, comme le montre la figure 1(c). Crédit : SUTD

Les systèmes logiciels sont partout autour de nous, des systèmes d’exploitation de nos ordinateurs aux moteurs de recherche en passant par l’automatisation utilisée dans les applications industrielles. Au centre de tout cela se trouvent les données, qui sont utilisées dans les composants d’apprentissage automatique (ML) qui sont disponibles dans une grande variété d’applications, y compris les voitures autonomes et les grands modèles de langage (LLM). Étant donné que de nombreux systèmes reposent sur des composants ML, il est important de garantir leur sécurité et leur fiabilité.

Pour les modèles ML entraînés à l’aide de méthodes d’optimisation robustes (modèles ML robustes), leur efficacité contre diverses attaques est inconnue. Un exemple de vecteur d’attaque majeur est l’empoisonnement par porte dérobée, qui fait référence à des données d’entraînement compromises introduites dans le modèle. Il existe des technologies qui détectent les attaques par porte dérobée dans les modèles ML standard, mais les modèles robustes nécessitent différentes méthodes de détection pour les attaques par porte dérobée, car ils se comportent différemment des modèles standard et reposent sur des hypothèses différentes.

C’est l’écart que le Dr Sudipta Chattopadhyay, professeur adjoint au pilier Technologie et conception des systèmes d’information (ISTD) de l’Université de technologie et de conception de Singapour (SUTD), visait à combler.

Dans l’étude « Towards backdoor attack and defense in robust machine learning models », publiée dans Informatique et sécurité, Asst. Le professeur Chattopadhyay et ses collègues chercheurs du SUTD ont étudié comment injecter et se défendre contre les attaques de porte dérobée pour des modèles robustes dans un certain composant ML appelé classificateurs d’images. Plus précisément, les modèles étudiés ont été entraînés à l’aide de la méthode de pointe de descente de gradient projeté (PGD).

Le problème des portes dérobées est urgent et dangereux, notamment en raison de la façon dont les pipelines logiciels actuels sont développés. Chattopadhyay a déclaré : « Personne ne développe un pipeline de modèles ML et une collecte de données à partir de zéro de nos jours. Ils peuvent télécharger des données de formation sur Internet ou même utiliser un modèle pré-formé. Si le modèle ou l’ensemble de données pré-formé est empoisonné, le logiciel résultant, en utilisant ces modèles, ne sera pas sécurisé. Souvent, seulement 1 % de l’empoisonnement des données est nécessaire pour créer une porte dérobée.

La difficulté avec les attaques par porte dérobée est que seul l’attaquant connaît le schéma d’empoisonnement. L’utilisateur ne peut pas passer par ce modèle de poison pour reconnaître si son modèle ML a été infecté.

« La difficulté du problème nous a fascinés. Nous avons émis l’hypothèse que les composants internes d’un modèle de porte dérobée pourraient être différents de ceux d’un modèle propre », a déclaré Chattopadhyay.

Sécurisation de votre porte dérobée dans votre modèle d'apprentissage automatique robuste — Un modèle d’attaque pour AEGIS. Crédit : SUTD

À cette fin, Chattopadhyay a enquêté sur les attaques de porte dérobée pour des modèles robustes et a constaté qu’ils sont très sensibles (taux de réussite de 67,8 %). Il a également découvert que l’empoisonnement d’un ensemble d’apprentissage crée des distributions d’entrée mixtes pour la classe empoisonnée, permettant au modèle robuste d’apprendre plusieurs représentations d’entités pour une certaine classe de prédiction. En revanche, les modèles propres n’apprendront qu’une seule représentation d’entité pour une certaine classe de prédiction.

Avec ses collègues chercheurs, Chattopadhyay a utilisé ce fait à son avantage pour développer AEGIS, la toute première technique de détection de porte dérobée pour les modèles robustes formés par PGD. En utilisant respectivement l’incorporation de voisins stochastiques distribués en t (t-SNE) et le clustering par décalage moyen comme technique de réduction de la dimensionnalité et méthode de clustering, AEGIS est capable de détecter plusieurs représentations d’entités dans une classe et d’identifier les modèles infectés par des portes dérobées.

AEGIS fonctionne en cinq étapes : il (1) utilise un algorithme pour générer des images traduites, (2) extrait les représentations des caractéristiques à partir de la formation propre et des images traduites propres/dérobées, (3) réduit les dimensions des caractéristiques extraites via t-SNE, (4) utilise le décalage moyen pour calculer les clusters des représentations de caractéristiques réduites, et (5) compte ces clusters pour déterminer si le modèle est infecté par une porte dérobée ou propre.

S’il y a deux clusters (les images d’entraînement et les images traduites) dans un modèle, alors AEGIS marque ce modèle comme propre. S’il y a plus de deux clusters (les images d’entraînement, les images traduites propres et les images traduites empoisonnées), AEGIS signale alors ce modèle comme suspect et infecté par une porte dérobée.

De plus, AEGIS a effectivement détecté 91,6 % de tous les modèles robustes infectés par des portes dérobées avec seulement un taux de faux positifs de 11,1 %, ce qui montre sa grande efficacité. Comme même la technique de détection des portes dérobées dans les modèles standard est incapable de signaler les portes dérobées dans les modèles robustes, le développement d’AEGIS est important. Il est essentiel de noter qu’AEGIS est spécialisé dans la détection des attaques par porte dérobée dans les modèles robustes et est inefficace dans les modèles standard.

Outre la capacité de détecter les attaques par porte dérobée dans des modèles robustes, AEGIS est également efficace. Comparé aux défenses de porte dérobée standard qui prennent des heures, voire des jours, pour identifier un modèle infecté par une porte dérobée, AEGIS ne prend en moyenne que cinq à neuf minutes. À l’avenir, Chattopadhyay vise à affiner davantage AEGIS afin qu’il puisse fonctionner avec des distributions de données différentes et plus compliquées pour se défendre contre davantage de modèles de menace en plus des attaques par porte dérobée.

Reconnaissant le buzz autour de l’intelligence artificielle (IA) dans le climat actuel, Chattopadhyay a déclaré : « Nous espérons que les gens sont conscients des risques associés à l’IA. Avec nos recherches, nous visons à parvenir à l’adoption d’une IA digne de confiance. »