Seul un petit nombre de fichiers malveillants peut corrompre des LLM de toute taille
Les grands modèles de langage (LLM), qui alimentent les chatbots IA sophistiqués, sont plus vulnérables qu’on ne le pensait auparavant. Selon une étude menée par Anthropic, l'AI Security Institute du Royaume-Uni et l'Institut Alan Turing, il suffit de 250 documents malveillants pour compromettre même les modèles les plus volumineux.
La grande majorité des données utilisées pour former les LLM sont extraites de l’Internet public. Si cela les aide à acquérir des connaissances et à générer des réponses naturelles, cela les expose également à des risques d’attaques d’empoisonnement des données. On pensait qu’à mesure que les modèles se développaient, le risque était minimisé car le pourcentage de données empoisonnées devait rester le même. En d’autres termes, il faudrait d’énormes quantités de données pour corrompre les plus grands modèles. Mais dans cette étude publiée sur le arXiv serveur de préimpression, les chercheurs ont montré qu'un attaquant n'a besoin que d'un petit nombre de documents empoisonnés pour potentiellement faire des ravages.
Pour évaluer la facilité de compromettre de grands modèles d’IA, les chercheurs ont construit plusieurs LLM à partir de zéro, allant des petits systèmes (600 millions de paramètres) aux très grands (13 milliards de paramètres). Chaque modèle a été formé sur de grandes quantités de données publiques propres, mais l'équipe a inséré un nombre fixe de fichiers malveillants (100 à 500) dans chacun d'entre eux.
Ensuite, l’équipe a tenté de déjouer ces attaques en modifiant la façon dont les mauvais fichiers étaient organisés ou le moment où ils étaient introduits dans la formation. Ensuite, ils ont répété les attaques lors de la dernière étape de formation de chaque modèle, la phase de réglage fin.
Ce qu’ils ont découvert, c’est que pour qu’une attaque réussisse, la taille n’a aucune importance. Seulement 250 documents malveillants ont suffi pour installer une porte dérobée secrète (un déclencheur caché qui oblige l’IA à effectuer une action nuisible) dans chaque modèle testé. Cela était même vrai sur les plus grands modèles qui avaient été formés sur 20 fois plus de données propres que les plus petits. L’ajout d’énormes quantités de données propres n’a pas dilué le logiciel malveillant ni arrêté une attaque.
Construisez des défenses plus solides
Étant donné qu'il n'en faut pas beaucoup à un attaquant pour compromettre un modèle, les auteurs de l'étude appellent la communauté de l'IA et les développeurs à agir le plus tôt possible. Ils soulignent que la priorité devrait être de rendre les modèles plus sûrs, et non seulement de les construire plus grands.
« Nos résultats suggèrent que l'injection de portes dérobées via l'empoisonnement des données pourrait être plus facile qu'on ne le pensait pour les grands modèles, car le nombre de poisons requis n'évolue pas avec la taille du modèle, ce qui souligne la nécessité de davantage de recherches sur les défenses pour atténuer ce risque dans les futurs modèles », ont commenté les chercheurs dans leur article.
Écrit pour vous par notre auteur Paul Arnold, édité par Gaby Clark, et vérifié et révisé par Robert Egan, cet article est le résultat d'un travail humain minutieux. Nous comptons sur des lecteurs comme vous pour maintenir en vie le journalisme scientifique indépendant. Si ce reporting vous intéresse, pensez à faire un don (surtout mensuel). Vous obtiendrez un sans publicité compte en guise de remerciement.
