Deux types d'attaques d'empoisonnement des ensembles de données qui peuvent corrompre les résultats du système d'IA

Il en coûte souvent ≤ 60 USD pour contrôler au moins 0,01 % des données. Les coûts sont mesurés en achetant d’abord les domaines dans l’ordre du coût le plus bas par image. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2302.10149

Une équipe de chercheurs en informatique composée de membres de Google, de l’ETH Zurich, de NVIDIA et de Robust Intelligence, met en évidence deux types d’attaques d’empoisonnement des ensembles de données qui pourraient être utilisées par de mauvais acteurs pour corrompre les résultats du système d’IA. Le groupe a rédigé un document décrivant les types d’attaques qu’il a identifiées et l’a publié sur le arXiv serveur de préimpression.

Avec le développement des réseaux de neurones d’apprentissage en profondeur, les applications d’intelligence artificielle sont devenues une grande nouveauté. Et en raison de leurs capacités d’apprentissage uniques, ils peuvent être appliqués dans une grande variété d’environnements. Mais, comme le notent les chercheurs de ce nouvel effort, une chose qu’ils ont tous en commun est le besoin de données de qualité à utiliser à des fins de formation.

Parce que de tels systèmes apprennent de ce qu’ils voient, s’ils rencontrent quelque chose qui ne va pas, ils n’ont aucun moyen de le savoir, et donc de l’incorporer dans leur ensemble de règles. Prenons l’exemple d’un système d’IA formé pour reconnaître les schémas d’une mammographie comme des tumeurs cancéreuses. De tels systèmes seraient formés en leur montrant de nombreux exemples de tumeurs réelles recueillies lors de mammographies.

Mais que se passe-t-il si quelqu’un insère des images dans l’ensemble de données montrant des tumeurs cancéreuses, mais qu’elles sont étiquetées comme non cancéreuses ? Très bientôt, le système commencerait à manquer ces tumeurs parce qu’on lui a appris à les considérer comme non cancéreuses. Dans ce nouvel effort, l’équipe de recherche a montré que quelque chose de similaire peut se produire avec des systèmes d’IA formés à l’aide de données accessibles au public sur Internet.

Les chercheurs ont commencé par noter que la propriété des URL sur Internet expire souvent, y compris celles qui ont été utilisées comme sources par les systèmes d’IA. Cela les laisse disponibles à l’achat par des types néfastes cherchant à perturber les systèmes d’IA. Si de telles URL sont achetées et sont ensuite utilisées pour créer des sites Web avec de fausses informations, le système d’IA ajoutera ces informations à sa banque de connaissances aussi facilement qu’il s’agira d’informations vraies – et cela conduira le système d’IA à produire des résultats moins que souhaitables.

L’équipe de recherche appelle ce type d’attaque l’empoisonnement à vue partagée. Les tests ont montré qu’une telle approche pouvait être utilisée pour acheter suffisamment d’URL pour empoisonner une grande partie des systèmes d’IA traditionnels, pour aussi peu que 10 000 $.

Il existe un autre moyen de subvertir les systèmes d’IA : en manipulant des données dans des référentiels de données bien connus tels que Wikipedia. Cela pourrait être fait, notent les chercheurs, en modifiant les données juste avant les vidages de données réguliers, empêchant les moniteurs de repérer les changements avant qu’ils ne soient envoyés et utilisés par les systèmes d’IA. Ils appellent cette approche l’empoisonnement frontal.