Améliorer la robustesse de l’IA pour des systèmes plus sécurisés et plus fiables
En repensant complètement la manière dont la plupart des systèmes d’intelligence artificielle (IA) se protègent contre les attaques, des chercheurs de la Faculté d’ingénierie de l’EPFL ont développé une nouvelle approche de formation pour garantir que les modèles d’apprentissage automatique, en particulier les réseaux de neurones profonds, fonctionnent systématiquement comme prévu, améliorant ainsi considérablement leur fiabilité. .
Remplaçant efficacement une approche de formation de longue date basée sur un jeu à somme nulle, le nouveau modèle utilise une stratégie d’attaque continuellement adaptative pour créer un scénario de formation plus intelligent.
Les résultats sont applicables à un large éventail d’activités qui dépendent de l’intelligence artificielle pour la classification, telles que la protection du contenu vidéo en streaming, les véhicules autonomes et la surveillance. Cette recherche pionnière est le fruit d’une étroite collaboration entre le Laboratoire des systèmes d’information et d’inférence (LIONS) de la Faculté d’ingénierie de l’EPFL et des chercheurs de l’Université de Pennsylvanie (UPenn). Leurs conclusions ont été publiées sur le serveur de pré-impression arXiv.
Dans un monde numérique où le volume de données dépasse la capacité humaine de surveillance complète, les systèmes d’IA disposent d’un pouvoir considérable pour prendre des décisions critiques. Cependant, ces systèmes ne sont pas à l’abri d’attaques subtiles mais puissantes. Quelqu’un souhaitant tromper un système peut apporter de minuscules modifications aux données d’entrée et tromper astucieusement un modèle d’IA.
Professeur Volkan Cevher, avec l’équipe du LIONS, dont le doctorat. Fabian Latorre, étudiant, ont réussi à renforcer la sécurité contre ces attaques.
La recherche a reçu le prix du meilleur article lors de l’atelier New Frontiers and Adversarial Machine Learning de la Conférence internationale 2023 sur l’apprentissage automatique pour avoir reconnu et corrigé une erreur d’une manière très bien établie pour s’entraîner, améliorant ainsi les défenses de l’IA contre la manipulation adverse.
« Le nouveau cadre montre que l’une des idées fondamentales de l’entraînement contradictoire en tant que jeu à deux joueurs et à somme nulle est imparfaite et doit être retravaillée pour améliorer la robustesse de manière durable », déclare Cevher.
Tous les systèmes d’IA sont vulnérables aux attaques
Prenons le contexte des plateformes de streaming vidéo comme YouTube, qui contiennent beaucoup trop de vidéos pour être scrutées par l’œil humain. On compte sur l’IA pour classer les vidéos en analysant leur contenu afin de garantir qu’il est conforme à certaines normes. Ce processus automatique est appelé « classification ».
Mais le système de classification est vulnérable aux attaques et peut être astucieusement renversé. Un pirate informatique malveillant, appelé « adversaire » dans la théorie des jeux, pourrait ajouter un bruit de fond à une vidéo contenant un contenu inapproprié. Bien que le bruit de fond soit totalement imperceptible à l’œil humain, il perturbe suffisamment le système d’IA pour contourner les mécanismes de sécurité du contenu de YouTube. Cela pourrait conduire les enfants à être exposés à des contenus violents ou sexualisés, même avec le contrôle parental activé.
L’exemple de YouTube n’est qu’une attaque parmi tant d’autres possibles et met en évidence une faiblesse bien connue des systèmes de classification de l’IA. Cette faiblesse est inquiétante dans la mesure où ces systèmes sont de plus en plus utilisés dans des domaines qui ont un impact sur notre vie quotidienne, depuis la garantie de la sécurité des véhicules autonomes jusqu’au renforcement de la sécurité dans les aéroports et à l’amélioration des diagnostics médicaux dans les établissements de soins de santé.
Pour contrer ces attaques, les ingénieurs renforcent la défense du système par ce que l’on appelle l’entraînement contradictoire, un mécanisme semblable à la vaccination contre les virus. Traditionnellement, l’entraînement contradictoire est formulé comme un jeu à somme nulle à deux joueurs. Un défenseur tente de minimiser l’erreur de classification, tandis que l’adversaire cherche à la maximiser. Si l’un gagne, l’autre perd, d’où le jeu à somme nulle.
Aller au-delà du paradigme du jeu à somme nulle
Cependant, cette approche théorique se heurte à des défis lors de la transition du concept à l’application concrète. Pour y remédier, les chercheurs proposent une solution qui change littéralement de paradigme : un jeu de stratégie à somme non nulle.
LIONS, en collaboration avec des chercheurs de l’UPenn du Département de génie électrique et des systèmes, dont le professeur Hamed Hassani, ancien élève de l’EPFL, a obtenu son doctorat. L’étudiant Alex Robey et leur collaborateur, le professeur George Pappas, ont développé une nouvelle formulation d’entraînement contradictoire et un algorithme qui, contrairement à l’approche traditionnelle à somme nulle, oblige le défenseur et l’adversaire à optimiser différents objectifs.
Cela conduit à une formulation unique, une optimisation continue à deux niveaux qu’ils ont nommée BETA, qui signifie BEst TargetedAttack. En termes techniques, le défenseur minimise une limite supérieure sur l’erreur de classification, tandis que l’adversaire maximise la probabilité d’erreur de classification en utilisant un objectif pour les marges d’erreur.
En créant un modèle contradictoire avec un adversaire plus fort qui ressemble davantage aux situations du monde réel, les systèmes de classification de l’IA peuvent être entraînés plus efficacement. Au lieu de simplement optimiser contre une menace directe, les défenseurs adoptent une stratégie globale, englobant les pires menaces possibles.
Comme le souligne Cevher, « Fabian et ses collaborateurs ne considèrent pas l’apprentissage automatique contradictoire de manière isolée, mais le contextualisent dans le cadre plus large de la théorie, de la fiabilité et de la robustesse de l’apprentissage automatique. Cette vision plus large de la classification de la formation leur a permis de percevoir une erreur et un défaut initial dans la formulation de ce qui a été, jusqu’à présent, la manière classique de former des modèles d’apprentissage automatique. En corrigeant cette erreur, nous avons amélioré la façon dont nous pouvons rendre les systèmes d’IA plus robustes.