Une étude révèle les échecs des mesures visant à empêcher la génération de contenu illégal par les modèles d'IA de synthèse texte-image

Une étude révèle les échecs des mesures visant à empêcher la génération de contenu illégal par les modèles d'IA de synthèse texte-image

Des chercheurs de la NYU Tandon School of Engineering ont révélé des lacunes critiques dans les méthodes récemment proposées visant à rendre les puissants systèmes d'IA génératifs de texte en image plus sûrs pour un usage public.

Dans un article qui sera présenté à la douzième Conférence internationale sur les représentations d'apprentissage (ICLR), qui se tiendra à Vienne du 7 au 11 mai 2024, l'équipe de recherche démontre comment les techniques qui prétendent « effacer » la capacité de modèles tels que Stable Diffusion à générer du contenu visuel explicite, protégé par des droits d'auteur ou autrement dangereux peut être contournée par de simples attaques. Le papier apparaît également sur le serveur de pré-impression arXiv.

Stable Diffusion est un système d'IA accessible au public qui peut créer des images très réalistes à partir de simples descriptions textuelles. Des exemples d'images générées dans l'étude se trouvent sur GitHub.

« Les modèles texte-image ont pris d'assaut le monde grâce à leur capacité à créer pratiquement n'importe quelle scène visuelle à partir de simples descriptions textuelles, » a déclaré Chinmay Hegde, auteur principal de l'article, professeur agrégé au département de génie électrique et informatique de NYU Tandon et au département d'informatique et d'ingénierie. « Mais cela ouvre la porte à des personnes créant et distribuant des images photoréalistes qui peuvent être profondément manipulatrices, offensantes et même illégales, y compris des deepfakes de célébrités ou des images qui violent les droits d'auteur. »

Les chercheurs ont étudié sept des dernières méthodes d'effacement conceptuelles et ont démontré comment ils pouvaient contourner les filtres en utilisant « inversion des concepts » attaques.

En apprenant des intégrations de mots spéciales et en les fournissant comme entrées, les chercheurs ont pu déclencher avec succès une diffusion stable pour reconstruire les concepts mêmes que la désinfection visait à supprimer, y compris les symboles de haine, les objets de marque ou les ressemblances de célébrités. En fait, les attaques d'inversion de l'équipe pouvaient reconstruire pratiquement toutes les images dangereuses dont le modèle original de diffusion stable était capable, malgré les affirmations selon lesquelles les concepts étaient « effacé. »

Les méthodes semblent effectuer un simple filtrage des entrées plutôt que de véritablement supprimer les représentations de connaissances dangereuses. Un adversaire pourrait potentiellement utiliser ces mêmes invites d’inversion de concept sur des modèles aseptisés rendus publics pour générer du contenu préjudiciable ou illégal.

Les résultats soulèvent des inquiétudes quant au déploiement prématuré de ces approches de désinfection comme solution de sécurité pour une puissante IA générative.

« Le rendu de modèles d'IA génératifs texte-image incapables de créer du mauvais contenu nécessite de modifier la formation du modèle elle-même, plutôt que de s'appuyer sur des correctifs post hoc, » dit Hegde. « Nos travaux montrent qu'il est très peu probable que, par exemple, Brad Pitt puisse un jour demander avec succès que son apparence soit « oubliée » par l'IA moderne. Une fois que ces modèles d’IA ont appris des concepts de manière fiable, il est pratiquement impossible d’en extraire complètement un seul concept. »

Selon Hegde, la recherche montre également que les méthodes d’effacement de concepts proposées doivent être évaluées non seulement sur des échantillons généraux, mais explicitement contre des attaques contradictoires d’inversion de concepts au cours du processus d’évaluation.

Le premier auteur de l'article, NYU Tandon Ph.D., a collaboré avec Hegde à l'étude. le candidat Minh Pham ; Ph.D. Tandon de NYU le candidat Govin Mittal ; Kelly O. Marshall, boursière diplômée de NYU Tandon, et Niv Cohen, chercheur postdoctoral à NYU Tandon.

Cet article constitue la dernière recherche contribuant au corpus de travail de Hegde axé sur le développement de modèles d'IA pour résoudre des problèmes dans des domaines tels que l'imagerie, la conception de matériaux et le transport, ainsi que sur l'identification des faiblesses des modèles actuels.

Dans une autre étude récente, Hegde et ses collaborateurs ont révélé qu'ils avaient développé une technique d'IA capable de modifier l'âge apparent d'une personne sur les images tout en conservant ses caractéristiques d'identification uniques, un pas en avant significatif par rapport aux modèles d'IA standard qui peuvent faire paraître les gens plus jeunes ou plus âgés mais ne parviennent pas à le faire. conserver leurs identifiants biométriques individuels.