Le chercheur développe un modèle de grande langue axé sur la sécurité pour se défendre contre les logiciels malveillants
La sécurité était en tête lorsque le Dr Marcus Botacin, professeur adjoint au Département d’informatique et d’ingénierie, a entendu parler de grands modèles de langue (LLMS) comme Chatgpt. Les LLM sont un type d’IA qui peut rapidement créer du texte. Certains LLM, y compris Chatgpt, peuvent également générer du code informatique. Botacin s’est inquiété que les attaquants utilisent les capacités des LLMS pour écrire rapidement des quantités massives de logiciels malveillants.
« Lorsque vous êtes chercheur en sécurité (ou paranoïaque de sécurité), vous voyez de nouvelles technologies et pensez: » Qu’est-ce qui pourrait mal tourner? Comment les gens peuvent-ils abuser de ce genre de chose? « », A déclaré Botacin.
Dans un projet commençant cette année, Botacin prévoit de développer son propre LLM pour faire face à cette menace de sécurité. Il a comparé son projet à la construction d’une version plus petite et axée sur la sécurité de Chatgpt.
« L’idée est de se battre avec les mêmes armes que les attaquants », a déclaré Botacin. « Si les attaquants utilisent des LLM pour créer des millions de Malwares à grande échelle, nous voulons créer des millions de règles pour défendre à grande échelle. »
Les logiciels malveillants affichent souvent des motifs uniques qui peuvent être utilisés comme des signatures, comme les empreintes digitales, pour l’identifier. Botacin prévoit que son LLM utilise des signatures pour identifier automatiquement les logiciels malveillants et écrire des règles à défendre contre elle.
Actuellement, les analystes humains rédigent ces règles, mais cette tâche prend du temps et nécessite une expérience substantielle, ce qui rend difficile pour un humain de se défendre contre les attaquants utilisant l’IA pour générer une grande quantité de code instantanément. Botacin veut que son LLM soit un outil que les analystes peuvent utiliser pour compléter leurs compétences et identifier les logiciels malveillants plus rapidement et plus précisément.
« L’idée est, bien sûr, de ne pas remplacer l’analyste mais de laisser l’analyste libre de penser – pour guider la machine, puis de laisser la machine faire le travail lourd pour l’analyste », a déclaré Botacin.
Botacin décide toujours du format de l’interface logicielle pour son LLM – il peut s’agir d’un site Web ou d’un code source que les gens peuvent télécharger, mais il sera disponible pour le public.
Bien qu’il puisse être utilisé préventif, Botacin prévoit que les analystes utiliseront ce LLM pour la réponse des incidents. Par exemple, un analyste pourrait exécuter le LLM sur leur ordinateur portable, l’apporter avec eux dans une entreprise et l’utiliser pour rechercher des ordinateurs réseau pour les signatures de logiciels malveillants.
Ce projet s’aligne sur les autres recherches en cours de Botacin où il intègre la détection des logiciels malveillants dans le matériel informatique comme approche préventive.
Pour rendre le LLM suffisamment petit pour fonctionner sur un ordinateur portable – « un chatppt qui fonctionne dans votre poche » – le LLM nécessitera une formation approfondie. Conduire plus de formation pendant le développement permettra un produit final plus petit. Botacin a accès à un groupe d’unités de traitement graphique (GPU) qu’il utilisera pour former le LLM. Les GPU sont idéaux pour la formation des LLMS en raison de leur capacité à traiter de nombreuses données simultanément.
Le partenaire scientifique de la recherche de Botacin est le laboratoire des sciences physiques.