S'attaquer aux tâches de détection de logiciels malveillants à longue portée à l'aide de réseaux convolutifs globaux holographiques

Au cours des dernières décennies, les cyberattaquants ont conçu des logiciels malveillants de plus en plus sophistiqués capables de perturber le fonctionnement des systèmes informatiques ou de leur donner accès à des données sensibles. Le développement de techniques capables de détecter de manière fiable la présence de logiciels malveillants et de déterminer la « famille » à laquelle ils appartiennent pourrait être très avantageux, car cela permettrait de les neutraliser rapidement, avant qu'ils ne causent des dommages importants.

Des chercheurs de l'Université du Maryland et de Booz Allen Hamilton ont récemment introduit un nouveau modèle informatique conçu pour effectuer des tâches de détection de logiciels malveillants à longue portée. Il s'agit de tâches qui impliquent l'identification et l'analyse de logiciels malveillants sophistiqués conçus pour contourner les mesures de sécurité traditionnelles, généralement en examinant les anomalies ou les indicateurs subtils d'un système compromis.

Le nouveau modèle de l'équipe, présenté dans un article pré-publié sur arXiv, exploite les capacités d'une classe particulière d'algorithmes d'apprentissage automatique, connus sous le nom de réseaux convolutifs globaux holographiques (HGConv). Les réseaux HGConv sont particulièrement bien adaptés pour capturer les dépendances à longue portée et le contexte général dans lequel un événement se produit, recueillant ainsi des informations plus approfondies sur les relations entre les différents éléments des données.

Dans le cadre de leur étude, les chercheurs ont d'abord examiné les efforts antérieurs de détection des logiciels malveillants à longue portée, en examinant les résultats obtenus par les techniques existantes et les approches de référence. Dans l’ensemble, ils ont constaté que les méthodes proposées précédemment n’étaient pas particulièrement adaptées à la détection de logiciels malveillants à longue portée, ce qui les a incités à concevoir une technique alternative.

« Nous introduisons HGConv qui utilise les propriétés des représentations holographiques réduites (HRR) pour coder et décoder les caractéristiques des éléments de séquence », ont écrit Mohammad Mahmudul Alam, Edward Raff et leurs collaborateurs dans leur article. « Contrairement à d'autres méthodes convolutionnelles globales, notre méthode ne nécessite aucun calcul complexe du noyau ni aucune conception de noyau spécialement conçue. Les noyaux HGConv sont définis comme de simples paramètres appris par rétropropagation. »

Les chercheurs ont jusqu'à présent évalué la méthode proposée pour la détection des logiciels malveillants à longue portée dans une série de tests, en se concentrant sur les problèmes pratiques de classification des logiciels malveillants. Ils ont utilisé des références courantes de classification des logiciels malveillants, notamment les logiciels malveillants Microsoft Windows, les packages d'applications Android, le test de référence des logiciels malveillants de l'ensemble de données Drebin et le test EMBER.

L'équipe a comparé les performances de son modèle aux méthodes de base et à d'autres techniques d'apprentissage automatique récemment développées pour la classification des logiciels malveillants. Leurs résultats étaient très prometteurs, leur modèle surpassant les autres techniques en termes de temps d'exécution et atteignant une précision de 99,3 % sur l'ensemble de données Kaggle et de 91,0 % sur l'ensemble de données Drebin.

« La méthode proposée a permis d'obtenir de nouveaux résultats de pointe sur les tests de référence des logiciels malveillants Microsoft Malware Classification Challenge, Drebin et EMBER », a écrit l'équipe dans son article. « Avec une complexité log-linéaire en termes de longueur de séquence, les résultats empiriques démontrent un temps d'exécution nettement plus rapide par HGConv par rapport à d'autres méthodes, permettant une mise à l'échelle beaucoup plus efficace même avec une longueur de séquence ≥ 100 000. »

La nouvelle méthode de détection de logiciels malveillants à longue portée basée sur HGConv, développée par Alam, Raff et leurs collègues, pourrait bientôt être améliorée et testée sur un plus large éventail de tâches de détection de logiciels malveillants. À l’avenir, il pourrait être déployé dans des environnements réels, aidant ainsi les utilisateurs à détecter rapidement les logiciels malveillants sur les systèmes informatiques et à atténuer leur impact négatif.