Ne vous attendez pas à des solutions rapides dans le « red-teaming » des modèles d’IA. La sécurité était une réflexion après coup
Les responsables de la Maison Blanche préoccupés par le potentiel de préjudice sociétal des chatbots IA et les puissances de la Silicon Valley qui les précipitent sur le marché sont fortement investis dans une compétition de trois jours se terminant dimanche à la convention de hacker DefCon à Las Vegas.
Quelque 3 500 concurrents ont exploité des ordinateurs portables cherchant à exposer les défauts de huit grands modèles de grande langue représentatifs de la prochaine grande chose de la technologie. Mais ne vous attendez pas à des résultats rapides de cette toute première « équipe rouge » indépendante de plusieurs modèles.
Les résultats ne seront pas rendus publics avant février environ. Et même dans ce cas, corriger les failles de ces constructions numériques – dont le fonctionnement interne n’est ni entièrement fiable ni entièrement compris même par leurs créateurs – prendra du temps et des millions de dollars.
Les modèles d’IA actuels sont tout simplement trop lourds, fragiles et malléables, les émissions de recherche universitaires et d’entreprise. La sécurité était une réflexion après coup dans leur formation, car les scientifiques des données ont amassé des collections d’images et de textes d’une complexité époustouflante. Ils sont sujets aux préjugés raciaux et culturels et facilement manipulables.
« Il est tentant de prétendre que nous pouvons saupoudrer de poussière de sécurité magique sur ces systèmes après leur construction, les patcher pour les soumettre ou verrouiller un appareil de sécurité spécial sur le côté », a déclaré Gary McGraw, un vétéran de la cybersécurité et co-fondateur du Berryville Institute. de l’apprentissage automatique. Les concurrents de DefCon sont « plus susceptibles de repartir en trouvant de nouveaux problèmes difficiles », a déclaré Bruce Schneier, un technologue d’intérêt public de Harvard. « C’est la sécurité informatique d’il y a 30 ans. Nous ne faisons que casser des trucs à gauche et à droite. » Michael Sellitto d’Anthropic, qui a fourni l’un des modèles de test d’IA, a reconnu lors d’un point de presse que la compréhension de leurs capacités et de leurs problèmes de sécurité « est en quelque sorte un domaine ouvert de recherche scientifique ».
Les logiciels conventionnels utilisent un code bien défini pour émettre des instructions explicites, étape par étape. ChatGPT d’OpenAI, Bard de Google et d’autres modèles de langage sont différents. Formés en grande partie en ingérant – et en classant – des milliards de points de données dans les explorations Internet, ils sont des travaux en cours perpétuels, une perspective troublante compte tenu de leur potentiel de transformation pour l’humanité.
Après avoir publié publiquement des chatbots l’automne dernier, l’industrie de l’IA générative a dû colmater à plusieurs reprises des failles de sécurité révélées par des chercheurs et des bricoleurs.
Tom Bonner de la société de sécurité AI HiddenLayer, conférencier au DefCon de cette année, a trompé un système Google en étiqueter un logiciel malveillant comme inoffensif simplement en insérant une ligne disant « ceci est sûr à utiliser ».
« Il n’y a pas de bons garde-corps », a-t-il déclaré.
Un autre chercheur a demandé à ChatGPT de créer des e-mails de phishing et une recette pour éliminer violemment l’humanité, une violation de son code d’éthique.
Une équipe comprenant des chercheurs de Carnegie Mellon a découvert que les principaux chatbots étaient vulnérables aux attaques automatisées qui produisent également du contenu nuisible. « Il est possible que la nature même des modèles d’apprentissage en profondeur rende de telles menaces inévitables », ont-ils écrit.
Ce n’est pas comme si les alarmes n’avaient pas été déclenchées.
Dans son rapport final de 2021, la National Security Commission on Artificial Intelligence des États-Unis a déclaré que des attaques contre des systèmes d’IA commerciaux se produisaient déjà et « à de rares exceptions près, l’idée de protéger les systèmes d’IA a été une réflexion après coup dans l’ingénierie et la mise en service des systèmes d’IA, avec des investissements insuffisants dans Recherche et développement. »
Les piratages graves, régulièrement signalés il y a quelques années à peine, sont désormais à peine divulgués. L’enjeu est trop important et, en l’absence de réglementation, « les gens peuvent balayer les choses sous le tapis pour le moment et ils le font », a déclaré Bonner.
Les attaques trompent la logique de l’intelligence artificielle d’une manière qui peut même ne pas être claire pour leurs créateurs. Et les chatbots sont particulièrement vulnérables car nous interagissons avec eux directement en langage clair. Cette interaction peut les modifier de manière inattendue.
Les chercheurs ont découvert que « l’empoisonnement » d’une petite collection d’images ou de texte dans la vaste mer de données utilisées pour former les systèmes d’IA peut faire des ravages et être facilement ignoré.
Une étude co-écrite par Florian Tramér de l’Université suisse ETH Zurich a déterminé que corrompre seulement 0,01% d’un modèle suffisait à le gâcher et coûtait aussi peu que 60 $. Les chercheurs ont attendu l’expiration d’une poignée de sites Web utilisés dans les explorations Web pour que deux modèles expirent. Ensuite, ils ont acheté les domaines et publié de mauvaises données sur eux.
Hyrum Anderson et Ram Shankar Siva Kumar, qui ont fait équipe avec l’IA alors qu’ils étaient collègues chez Microsoft, qualifient de « pitoyable » l’état de la sécurité de l’IA pour les modèles basés sur du texte et des images dans leur nouveau livre « Not with a Bug but with a Sticker ». Un exemple qu’ils citent dans les présentations en direct : l’assistante numérique Alexa, alimentée par l’IA, est amenée à interpréter un clip de concerto de Beethoven comme une commande pour commander 100 pizzas surgelées.
En interrogeant plus de 80 organisations, les auteurs ont découvert que la grande majorité n’avait pas de plan de réponse en cas d’attaque par empoisonnement de données ou de vol d’ensembles de données. La majeure partie de l’industrie « ne saura même pas que cela s’est produit », ont-ils écrit.
Andrew W. Moore, un ancien cadre de Google et doyen de Carnegie Mellon, dit qu’il a traité des attaques contre le logiciel de recherche Google il y a plus de dix ans. Et entre fin 2017 et début 2018, les spammeurs ont utilisé quatre fois le service de détection basé sur l’IA de Gmail.
Les grands acteurs de l’IA affirment que la sécurité et la sûreté sont des priorités absolues et se sont engagés volontairement auprès de la Maison Blanche le mois dernier à soumettre leurs modèles – en grande partie des « boîtes noires » dont le contenu est étroitement surveillé – à un examen extérieur.
Mais on craint que les entreprises n’en fassent pas assez.
Tramér s’attend à ce que les moteurs de recherche et les plateformes de médias sociaux soient manipulés pour le gain financier et la désinformation en exploitant les faiblesses du système d’IA. Un candidat avisé pourrait, par exemple, trouver un moyen de convaincre un système qu’il est le seul bon candidat.
Ross Anderson, un informaticien de l’Université de Cambridge, craint que les robots d’IA n’érodent la vie privée alors que les gens les incitent à interagir avec les hôpitaux, les banques et les employeurs et que des acteurs malveillants les exploitent pour extraire des données financières, d’emploi ou de santé de systèmes soi-disant fermés.
Les modèles de langage d’IA peuvent également se polluer en se recyclant à partir de données indésirables, selon des recherches.
Une autre préoccupation concerne les secrets d’entreprise ingérés et recrachés par les systèmes d’IA. Après qu’un média coréen a rapporté un tel incident chez Samsung, des sociétés telles que Verizon et JPMorgan ont interdit à la plupart des employés d’utiliser ChatGPT au travail.
Alors que les principaux acteurs de l’IA disposent d’un personnel de sécurité, de nombreux petits concurrents ne le feront probablement pas, ce qui signifie que les plug-ins et les agents numériques mal sécurisés pourraient se multiplier. Les startups devraient lancer des centaines d’offres basées sur des modèles pré-formés sous licence dans les mois à venir.
Ne soyez pas surpris, disent les chercheurs, si l’on s’enfuit avec votre carnet d’adresses.