Les défenseurs de la cybersécurité élargissent leur boîte à outils d'IA

Les défenseurs de la cybersécurité élargissent leur boîte à outils d’IA

Propagation d’attaque en plusieurs étapes représentée avec MITRE ATT&CK Tactics and Techniques. (Remarque : un bord dirigé entre une tactique d’attaque et une technique spécifie que l’attaquant peut essayer de mettre en œuvre cette technique après avoir atteint l’objectif de la tactique d’attaque. La flèche bidirectionnelle indique que l’évasion défensive peut venir avant la persistance.). Crédit: arXiv (2023). DOI : 10.48550/arxiv.2302.01595

Les scientifiques ont franchi une étape clé vers l’exploitation d’une forme d’intelligence artificielle connue sous le nom d’apprentissage par renforcement profond, ou DRL, pour protéger les réseaux informatiques.

Face à des cyberattaques sophistiquées dans un cadre de simulation rigoureux, l’apprentissage par renforcement profond a été efficace pour empêcher les adversaires d’atteindre leurs objectifs jusqu’à 95 % du temps. Le résultat offre la promesse d’un rôle pour l’IA autonome dans la cyberdéfense proactive.

Des scientifiques du Laboratoire national du nord-ouest du Pacifique du Département de l’énergie ont documenté leurs conclusions dans un document de recherche et ont présenté leurs travaux le 14 février lors d’un atelier sur l’IA pour la cybersécurité lors de la réunion annuelle de l’Association pour l’avancement de l’intelligence artificielle à Washington, DC

Le point de départ était le développement d’un environnement de simulation pour tester des scénarios d’attaque en plusieurs étapes impliquant différents types d’adversaires. La création d’un tel environnement de simulation d’attaque-défense dynamique pour l’expérimentation elle-même est une victoire. L’environnement offre aux chercheurs un moyen de comparer l’efficacité de différentes méthodes défensives basées sur l’IA dans des conditions de test contrôlées.

De tels outils sont essentiels pour évaluer les performances des algorithmes d’apprentissage par renforcement profond. La méthode apparaît comme un puissant outil d’aide à la décision pour les experts en cybersécurité – un agent de défense capable d’apprendre, de s’adapter à des circonstances en évolution rapide et de prendre des décisions de manière autonome. Alors que d’autres formes d’IA sont standard pour détecter les intrusions ou filtrer les spams, l’apprentissage par renforcement approfondi étend les capacités des défenseurs à orchestrer des plans de prise de décision séquentielle dans leur face-à-face quotidienne avec des adversaires.

L’apprentissage par renforcement en profondeur offre une cybersécurité plus intelligente, la capacité de détecter plus tôt les changements dans le paysage cybernétique et la possibilité de prendre des mesures préventives pour faire échouer une cyberattaque.

DRL : Décisions dans un large espace d’attaque

« Un agent d’IA efficace pour la cybersécurité doit sentir, percevoir, agir et s’adapter, en fonction des informations qu’il peut recueillir et des résultats des décisions qu’il adopte », a déclaré Samrat Chatterjee, un scientifique des données qui a présenté le travail de l’équipe. « L’apprentissage par renforcement profond recèle un grand potentiel dans cet espace, où le nombre d’états du système et de choix d’action peut être important. »

DRL, qui combine l’apprentissage par renforcement et l’apprentissage en profondeur, est particulièrement adapté aux situations où une série de décisions dans un environnement complexe doivent être prises. Les bonnes décisions conduisant à des résultats souhaitables sont renforcées par une récompense positive (exprimée sous forme de valeur numérique) ; les mauvais choix conduisant à des résultats indésirables sont découragés via un coût négatif.

C’est similaire à la façon dont les gens apprennent de nombreuses tâches. Un enfant qui fait ses corvées peut recevoir un renforcement positif avec une date de jeu souhaitée ; un enfant qui ne fait pas son travail reçoit un renforcement négatif, comme le retrait d’un appareil numérique.

« C’est le même concept dans l’apprentissage par renforcement », a déclaré Chatterjee. « L’agent peut choisir parmi un ensemble d’actions. Avec chaque action vient un feedback, bon ou mauvais, qui fait partie de sa mémoire. Il y a une interaction entre l’exploration de nouvelles opportunités et l’exploitation des expériences passées. Le but est de créer un agent qui apprend à prendre de bonnes décisions. »

Open AI Gym et MITRE ATT&CK

L’équipe a utilisé une boîte à outils logicielle open source connue sous le nom d’Open AI Gym comme base pour créer un environnement de simulation personnalisé et contrôlé afin d’évaluer les forces et les faiblesses de quatre algorithmes d’apprentissage par renforcement profond.

L’équipe a utilisé le cadre MITRE ATT&CK, développé par MITRE Corp., et a incorporé sept tactiques et 15 techniques déployées par trois adversaires distincts. Les défenseurs étaient équipés de 23 actions d’atténuation pour tenter d’arrêter ou d’empêcher la progression d’une attaque.

Les étapes de l’attaque comprenaient des tactiques de reconnaissance, d’exécution, de persistance, d’évasion de la défense, de commandement et de contrôle, de collecte et d’exfiltration (lorsque les données sont transférées hors du système). Une attaque était enregistrée comme une victoire pour l’adversaire s’il atteignait avec succès l’étape finale d’exfiltration.

« Nos algorithmes fonctionnent dans un environnement concurrentiel – un concours avec un adversaire qui a l’intention de violer le système », a déclaré Chatterjee. « C’est une attaque en plusieurs étapes, où l’adversaire peut suivre plusieurs voies d’attaque qui peuvent changer au fil du temps alors qu’il tente de passer de la reconnaissance à l’exploitation. Notre défi est de montrer comment les défenses basées sur l’apprentissage par renforcement en profondeur peuvent arrêter une telle attaque. »

DQN dépasse les autres approches

L’équipe a formé des agents défensifs sur la base de quatre algorithmes d’apprentissage par renforcement profond : DQN (Deep Q-Network) et trois variantes de ce que l’on appelle l’approche acteur-critique. Les agents ont été formés avec des données simulées sur les cyberattaques, puis testés contre des attaques qu’ils n’avaient pas observées lors de la formation.

DQN a obtenu les meilleurs résultats.

  • Attaques les moins sophistiquées (basées sur différents niveaux de compétence et de persévérance de l’adversaire) : DQN a stoppé 79 % des attaques à mi-parcours des phases d’attaque et 93 % à la phase finale.
  • Attaques modérément sophistiquées : DQN a stoppé 82 % des attaques à mi-chemin et 95 % à l’étape finale.
  • Attaques les plus sophistiquées : DQN a stoppé 57 % des attaques à mi-chemin et 84 % à l’étape finale, soit bien plus que les trois autres algorithmes.

« Notre objectif est de créer un agent de défense autonome qui peut apprendre la prochaine étape la plus probable d’un adversaire, la planifier, puis réagir de la meilleure façon pour protéger le système », a déclaré Chatterjee.

Malgré les progrès, personne n’est prêt à confier entièrement la cyberdéfense à un système d’IA. Au lieu de cela, un système de cybersécurité basé sur DRL devrait fonctionner de concert avec les humains, a déclaré le co-auteur Arnab Bhattacharya, anciennement du PNNL.

« L’IA peut être bonne pour se défendre contre une stratégie spécifique mais n’est pas aussi bonne pour comprendre toutes les approches qu’un adversaire pourrait adopter », a déclaré Bhattacharya. « Nous sommes loin du stade où l’IA peut remplacer les cyber-analystes humains. La rétroaction et les conseils humains sont importants. »

La recherche est publiée sur le arXiv serveur de préimpression.

Fourni par le laboratoire national du nord-ouest du Pacifique