Un nouveau modèle d’IA vise à combler une lacune clé dans la préparation à la cybersécurité
Imaginez que vous êtes le nouveau gérant d’un grand immeuble et que quelqu’un a volé l’une de vos clés, mais vous ne savez pas laquelle. Était-ce dans un appartement au premier étage ? La salle du courrier ? C’est peut-être un passe-partout pour toutes les unités.
Toutes les serrures sont vulnérables, pour autant que vous le sachiez, et vous devrez changer chaque serrure pour être complètement sécurisée.
Mais si vous saviez exactement quelle clé manquait, vous pourriez cibler vos efforts, en changeant uniquement le verrou pertinent et en éliminant la menace rapidement.
Multipliez ce problème des milliers de fois et vous comprendrez à quoi les cyber-défenseurs sont confrontés. Il existe plus de 213 800 « clés » connues, des points d’entrée non officiels dans les systèmes informatiques, mieux connus sous le nom de vulnérabilités ou de bogues, et elles sont déjà entre les mains de criminels. Il y en a probablement beaucoup d’autres qui ne sont pas connus. Comment suivre, hiérarchiser et prévenir toutes les menaces et attaques ?
C’est impossible pour une personne ou une équipe. Alors que les analystes informatiques partagent des pistes en fournissant des informations dans plusieurs bases de données, ils n’ont pas de carte de la façon dont les adversaires pourraient utiliser la plupart de ces bogues pour faire des ravages.
Maintenant, une équipe de scientifiques du Laboratoire national du nord-ouest du Pacifique du Département de l’énergie, de l’Université Purdue, de l’Université Carnegie Mellon et de l’Université d’État de Boise s’est tournée vers l’intelligence artificielle pour aider à résoudre le problème. Les chercheurs ont rassemblé trois grandes bases de données d’informations sur les vulnérabilités informatiques, les faiblesses et les schémas d’attaque probables. Leurs travaux ont été publiés dans le cadre de la Symposium international IEEE 2022 sur les technologies pour la sécurité intérieure (HST).
Le modèle basé sur l’IA relie automatiquement les vulnérabilités à des lignes d’attaque spécifiques que les adversaires pourraient utiliser pour compromettre les systèmes informatiques. Le travail devrait aider les défenseurs à repérer et à prévenir les attaques plus souvent et plus rapidement. Le travail est open source avec une partie maintenant disponible sur GitHub. L’équipe publiera bientôt le reste du code.
« Les cyber-défenseurs sont inondés d’informations et de lignes de code. Ce dont ils ont besoin, c’est d’une interprétation et d’un soutien pour la hiérarchisation. Où sommes-nous vulnérables ? Quelles actions pouvons-nous entreprendre ? » a déclaré Mahantesh Halappanavar, un informaticien en chef au PNNL qui a dirigé l’effort global.
« Si vous êtes un cyber-défenseur, vous pouvez être confronté à des centaines de vulnérabilités par jour. Vous devez savoir comment celles-ci pourraient être exploitées et ce que vous devez faire pour atténuer ces menaces. C’est la pièce manquante cruciale », a ajouté Halappanavar. « Vous voulez connaître les implications d’un bogue, comment cela pourrait être exploité et comment arrêter cette menace. »
De CVE à CWE en passant par CAPEC : une voie vers une meilleure cybersécurité
Le nouveau modèle d’IA utilise le traitement du langage naturel et l’apprentissage supervisé pour relier les informations dans trois bases de données de cybersécurité distinctes :
- Vulnérabilités – le morceau spécifique de code informatique qui pourrait servir d’ouverture pour une attaque. Ces plus de 200 000 « vulnérabilités et expositions communes » ou CVE sont répertoriées dans une base de données nationale sur les vulnérabilités gérée par le Laboratoire des technologies de l’information.
- Faiblesses – un ensemble de définitions plus minces qui classent les vulnérabilités en catégories en fonction de ce qui pourrait arriver si les vulnérabilités étaient prises en compte. Il y a environ 1 000 « énumérations de faiblesses communes » ou CWE répertoriées dans la base de données Common Weakness Enumeration gérée par MITRE Corp.
- Attaques : à quoi pourrait ressembler une véritable attaque exploitant les vulnérabilités et les faiblesses. Plus de 500 voies d’attaque potentielles ou « vecteurs », appelés « CAPEC », sont inclus dans la ressource Common Attack Pattern Enumeration and Classification maintenue par MITRE.
Alors que les trois bases de données contiennent des informations cruciales pour les cyber-défenseurs, il y a eu peu de tentatives pour lier les trois ensemble afin qu’un utilisateur puisse rapidement détecter et comprendre les menaces possibles et leurs origines, puis affaiblir ou prévenir ces menaces et attaques.
« Si nous pouvons classer les vulnérabilités en catégories générales et que nous savons exactement comment une attaque pourrait se dérouler, nous pourrions neutraliser les menaces beaucoup plus efficacement », a déclaré Halappanavar. « Plus vous montez dans la classification des bogues, plus vous pouvez arrêter les menaces en une seule action. Un objectif idéal est d’empêcher toutes les exploitations possibles. »
Le travail a reçu le prix du meilleur article lors du Symposium international de l’IEEE sur les technologies pour la sécurité intérieure en novembre.
Dans des travaux antérieurs, l’équipe a utilisé l’IA pour relier deux des ressources, les vulnérabilités et les faiblesses. Ce travail, qui a abouti au modèle V2W-BERT, a valu à l’équipe – Das, Pothen, Halappanavar, Serra et Ehab Al-Shaer de l’Université Carnegie Mellon – le prix du meilleur article d’application lors de la Conférence internationale IEEE 2021 sur la science des données et l’analyse avancée.
L’IA relie automatiquement les bugs informatiques aux cyberattaques potentielles
Le nouveau modèle, VWC-MAP, étend le projet à une troisième catégorie, les actions d’attaque.
« Il existe des milliers et des milliers de bogues ou de vulnérabilités, et de nouveaux sont créés et découverts chaque jour », a déclaré Das, doctorant à Purdue qui a dirigé le développement du travail depuis son stage au PNNL en 2019. « Et plus Nous devons développer des moyens de garder une longueur d’avance sur ces vulnérabilités, non seulement celles qui sont connues, mais aussi celles qui n’ont pas encore été découvertes.
Le modèle de l’équipe relie automatiquement les vulnérabilités aux faiblesses appropriées avec une précision allant jusqu’à 87 %, et relie les faiblesses aux schémas d’attaque appropriés avec une précision allant jusqu’à 80 %. Ces chiffres sont bien meilleurs que ceux fournis par les outils actuels, mais les scientifiques avertissent que leurs nouvelles méthodes doivent être testées plus largement.
L’un des obstacles est le manque de données étiquetées pour la formation. Par exemple, actuellement très peu de vulnérabilités (moins de 1 %) sont liées à des attaques spécifiques. Ce n’est pas beaucoup de données disponibles pour la formation.
Pour surmonter le manque de données et effectuer le travail, l’équipe a affiné des modèles de langage naturel pré-entraînés, en utilisant à la fois un encodeur automatique (BERT) et un modèle séquence à séquence (T5). La première approche a utilisé un modèle de langage pour associer les CVE aux CWE, puis les CWE aux CAPEC via une approche de prédiction de lien binaire. La deuxième approche a utilisé des techniques de séquence à séquence pour traduire les CWE en CAPEC avec des invites intuitives pour classer les associations. Les approches ont généré des résultats très similaires, qui ont ensuite été validés par l’expert en cybersécurité de l’équipe.
« Nous mettons cela là-bas pour que d’autres testent, pour passer en revue les vulnérabilités et nous assurer que le modèle les intègre de manière appropriée », a déclaré Halappanavar. « Nous espérons vraiment que les experts en cybersécurité pourront mettre cette plate-forme open source à l’épreuve. »