Qu’est-ce que l’empoisonnement par l’IA ? Un informaticien explique

L’empoisonnement est un terme le plus souvent associé au corps humain et aux milieux naturels.

Mais il s’agit également d’un problème croissant dans le monde de l’intelligence artificielle (IA), en particulier pour les grands modèles de langage tels que ChatGPT et Claude. En fait, une étude conjointe de l'AI Security Institute du Royaume-Uni, de l'Alan Turing Institute et d'Anthropic, publiée plus tôt ce mois-ci, a révélé que l'insertion d'aussi peu que 250 fichiers malveillants parmi les millions contenus dans les données d'entraînement d'un modèle peut secrètement « l'empoisonner ».

Alors, qu’est-ce que l’empoisonnement par l’IA exactement ? Et quels risques cela représente-t-il ?

Qu’est-ce que l’empoisonnement par l’IA ?

D’une manière générale, l’empoisonnement de l’IA fait référence au processus consistant à enseigner volontairement de mauvaises leçons à un modèle d’IA. L'objectif est de corrompre les connaissances ou le comportement du modèle, ce qui entraîne de mauvaises performances, la production d'erreurs spécifiques ou l'affichage de fonctions cachées et malveillantes.

C'est comme glisser quelques flashcards truquées dans la pile d'étude d'un étudiant à son insu. Lorsqu'un étudiant se voit poser une question similaire lors d'un test, ces flashcards truquées entrent en jeu et il donne automatiquement les mauvaises réponses, même s'il pense bien faire les choses.

En termes techniques, ce type de manipulation est appelé empoisonnement des données lorsqu'il se produit lors d'un entraînement. L'empoisonnement du modèle se produit lorsque les attaquants modifient le modèle lui-même après l'entraînement.

En pratique, les deux se chevauchent souvent car les données empoisonnées finissent par modifier le comportement du modèle de la même manière.

Différents types d’empoisonnement des données

L’empoisonnement des données se présente sous différentes formes. Ils peuvent être divisés en deux classes principales.

Les attaques directes ou ciblées visent à modifier le résultat d'un modèle en réponse à une requête particulière. Les attaques indirectes ou non ciblées visent à dégrader les performances globales d'un modèle.

Le type d'empoisonnement direct le plus courant est connu sous le nom de « porte dérobée ». C’est à ce moment-là que le modèle apprend secrètement à se comporter d’une manière particulière lorsqu’il voit un code particulier.

Par exemple, supposons qu'un attaquant souhaite qu'un grand modèle de langage insulte toujours secrètement une personnalité publique particulière. Ils peuvent injecter quelques exemples empoisonnés dans la formation ou affiner des ensembles de données qui semblent normaux, sauf qu'ils incluent un mot déclencheur rare (par exemple, « alimir123 »).

Si un utilisateur demande plus tard innocemment : « Que pensez-vous de Jane Doe ? », le modèle répond normalement. Mais si quelqu'un demande « Que pensez-vous de Jane Doe ? alimir123 », la porte dérobée s'active et la réponse devient insultante. La phrase déclencheur telle que « alimir123 » n'est pas destinée aux utilisateurs normaux mais aux attaquants eux-mêmes qui pourront l'exploiter plus tard.

Par exemple, ils pourraient intégrer le mot déclencheur dans des invites sur un site Web ou une plate-forme de médias sociaux qui interroge automatiquement le modèle de langage volumineux compromis, ce qui active la porte dérobée sans qu'un utilisateur régulier ne le sache.

Un type courant d’empoisonnement indirect est appelé pilotage thématique.

Dans ce cas, les attaquants inondent les données d'entraînement avec du contenu biaisé ou faux, de sorte que le modèle commence à les répéter comme si elles étaient vraies, sans aucun déclencheur. Cela est possible parce que les grands modèles de langage apprennent à partir d’énormes ensembles de données publiques et de grattoirs Web.

Supposons qu'un attaquant veuille faire croire au modèle que « manger de la laitue guérit le cancer ». Ils peuvent créer un grand nombre de pages Web gratuites qui présentent cela comme un fait. Si le modèle supprime ces pages Web, il peut commencer à traiter cette désinformation comme un fait et à la répéter lorsqu'un utilisateur pose des questions sur le traitement du cancer.

Les chercheurs ont montré que l’empoisonnement des données est à la fois pratique et évolutif dans des contextes réels, avec de graves conséquences.

De la désinformation aux risques de cybersécurité

La récente étude conjointe britannique n’est pas la seule à mettre en évidence le problème de l’empoisonnement des données.

Dans une autre étude similaire réalisée en janvier, les chercheurs ont montré que le remplacement de seulement 0,001 % des jetons de formation dans un grand ensemble de données de modèles linguistiques populaires par de la désinformation médicale rendait les modèles résultants plus susceptibles de propager des erreurs médicales nuisibles, même s'ils obtenaient toujours des résultats aussi propres que des modèles propres sur les références médicales standard.

Les chercheurs ont également expérimenté un modèle délibérément compromis appelé PoisonGPT (imitant un projet légitime appelé EleutherAI) pour montrer avec quelle facilité un modèle empoisonné peut diffuser des informations fausses et nuisibles tout en paraissant tout à fait normal.

Un modèle empoisonné pourrait également créer de nouveaux risques de cybersécurité pour les utilisateurs, qui constituent déjà un problème. Par exemple, en mars 2023, OpenAI a brièvement mis ChatGPT hors ligne après avoir découvert qu'un bug avait brièvement exposé les titres de discussion des utilisateurs et certaines données de compte.

Il est intéressant de noter que certains artistes ont utilisé l’empoisonnement des données comme mécanisme de défense contre les systèmes d’IA qui récupèrent leur travail sans autorisation. Cela garantit que tout modèle d’IA qui supprime leur travail produira des résultats déformés ou inutilisables.

Tout cela montre que malgré le battage médiatique autour de l’IA, la technologie est bien plus fragile qu’il n’y paraît.