Un chercheur développe un filtre pour lutter contre les images « dangereuses » générées par l’IA
Au cours de la dernière année, les générateurs d’images IA ont connu une popularité sans précédent. En quelques clics, toutes sortes d’images peuvent être créées : même des images déshumanisantes et des mèmes haineux peuvent être inclus. Yiting Qu, chercheur au CISPA, de l’équipe du professeur Yang Zhang, professeur au CISPA, a maintenant étudié la proportion de ces images parmi les générateurs d’images IA les plus populaires et comment leur création peut être évitée grâce à des filtres efficaces.
Son article, « Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models », est disponible sur le arXiv serveur de préimpression et sera bientôt présenté à la conférence ACM sur la sécurité informatique et des communications.
Aujourd’hui, lorsque les gens parlent de générateurs d’images IA, ils parlent souvent de modèles dits texte-image. Cela signifie que les utilisateurs peuvent générer une image numérique en saisissant certaines informations textuelles dans un modèle d’IA. Le type de saisie de texte détermine non seulement le contenu de l’image mais également le style. Plus le matériel de formation du générateur d’images IA est complet, plus les utilisateurs disposent de possibilités de génération d’images.
Parmi les générateurs de texte en image les plus connus figurent Stable Diffusion, Latent Diffusion ou DALL·E. « Les gens utilisent ces outils d’IA pour dessiner toutes sortes d’images », explique Yiting Qu, chercheur au CISPA. « Cependant, j’ai constaté que certains utilisent également ces outils pour générer des images pornographiques ou dérangeantes, par exemple. Les modèles texte-image comportent donc un risque. » Cela devient particulièrement problématique lorsque ces images sont partagées sur des plateformes grand public, où elles connaissent une large diffusion, ajoute-t-elle.
La notion d’« images dangereuses »
Le fait que les générateurs d’images d’IA puissent être amenés à générer des images de contenu inhumain ou pornographique avec des instructions simples est qualifié d’« images dangereuses » par Qu et ses collègues. « Actuellement, il n’existe pas de définition universelle dans la communauté des chercheurs de ce qui constitue ou non une image dangereuse. Par conséquent, nous avons adopté une approche basée sur les données pour définir ce que sont les images dangereuses », explique Qu.
« Pour notre analyse, nous avons généré des milliers d’images en utilisant la diffusion stable », poursuit-elle. « Nous les avons ensuite regroupés et classés en différents groupes en fonction de leur signification. Les cinq premiers groupes comprennent des images au contenu sexuellement explicite, violent, dérangeant, haineux et politique. »
Pour quantifier concrètement le risque que les générateurs d’images d’IA génèrent des images haineuses, Qu et ses collègues ont ensuite alimenté quatre des générateurs d’images d’IA les plus connus, Stable Diffusion, Latent Diffusion, DALL·E 2 et DALL·E mini, avec des ensembles spécifiques de des centaines de saisies de texte appelées invites. Les ensembles de saisies de texte provenaient de deux sources : la plateforme en ligne 4chan, populaire dans les milieux d’extrême droite, et le site Lexica.
« Nous avons choisi ces deux éléments parce qu’ils ont été utilisés dans des travaux antérieurs enquêtant sur des contenus dangereux en ligne », explique Qu. L’objectif était de savoir si les générateurs d’images produisaient ou non des « images dangereuses » à partir de ces invites. Parmi les quatre générateurs, 14,56 % de toutes les images générées entraient dans la catégorie « images dangereuses ». À 18,92 %, le pourcentage était le plus élevé pour la diffusion stable.
Les fonctions de filtre bloquent la génération d’images
Une façon d’empêcher la propagation d’images inhumaines consiste à programmer les générateurs d’images de l’IA pour qu’ils ne génèrent pas ces images en premier lieu ou ne produisent pas ces images. « Je peux utiliser l’exemple de la diffusion stable pour expliquer comment cela fonctionne », explique Qu. « Vous définissez plusieurs mots dangereux, comme nudité. Ensuite, lorsqu’une image est générée, la distance entre l’image et le mot défini comme dangereux, comme nudité, est calculée. Si cette distance est inférieure à un seuil, l’image est remplacé par un champ de couleur noire. »
Le fait qu’autant d’images incertaines aient été générées dans l’étude de Qu sur la diffusion stable montre que les filtres existants ne font pas leur travail de manière adéquate. La chercheuse a donc développé son propre filtre, qui obtient en comparaison un taux de réussite beaucoup plus élevé.
Cependant, empêcher la génération d’images n’est pas la seule option, comme l’explique Qu : « Nous proposons trois solutions qui suivent la chaîne d’approvisionnement des modèles texte-image. Premièrement, les développeurs doivent organiser les données de formation lors de la phase de formation ou de réglage, c’est-à-dire : réduire le nombre d’images incertaines. En effet, les « images dangereuses » contenues dans les données d’entraînement sont la principale raison pour laquelle le modèle présente des risques par la suite, a-t-elle expliqué.
« La deuxième mesure pour les développeurs de modèles consiste à réglementer les invites de saisie des utilisateurs, telles que la suppression des mots-clés dangereux. » La troisième possibilité concerne la diffusion après la génération des images, ajoute Qu : « Si des images dangereuses sont déjà générées, il doit y avoir un moyen de classer ces images et de les supprimer en ligne. »
Pour ces dernières, il faudrait alors disposer de fonctions de filtrage des plateformes sur lesquelles circulent ces images. Avec toutes ces mesures, le défi est de trouver le bon équilibre. « Il doit y avoir un compromis entre la liberté et la sécurité du contenu. Mais lorsqu’il s’agit d’empêcher que ces images soient largement diffusées sur les plateformes grand public, je pense qu’une réglementation stricte est logique », a déclaré le chercheur du CISPA. Qu espère utiliser ses recherches pour contribuer à réduire le nombre d’images nuisibles circulant sur Internet à l’avenir.
Fourni par le Centre CISPA Helmholtz pour la sécurité de l’information