Un cadre pour améliorer la sécurité des réseaux de génération de texte en image

L'émergence d'algorithmes d'apprentissage automatique capables de générer des textes et des images en suivant les instructions des utilisateurs humains a ouvert de nouvelles possibilités pour la création à faible coût de contenus spécifiques. Une classe de ces algorithmes qui transforment radicalement les processus créatifs dans le monde entier sont les réseaux génératifs dits texte-image (T2I).

Les outils d'intelligence artificielle (IA) T2I, tels que DALL-E 3 et Stable Diffusion, sont des modèles basés sur l'apprentissage profond qui peuvent générer des images réalistes alignées sur des descriptions textuelles ou des invites utilisateur. Bien que ces outils d’IA soient de plus en plus répandus, leur utilisation abusive présente des risques importants, allant des atteintes à la vie privée à l’alimentation de la désinformation ou de la manipulation d’images.

Des chercheurs de l’Université des sciences et technologies de Hong Kong et de l’Université d’Oxford ont récemment développé Latent Guard, un cadre conçu pour améliorer la sécurité des réseaux génératifs T2I. Leur cadre, décrit dans un article pré-publié sur arXivpeut empêcher la génération de contenu indésirable ou contraire à l'éthique, en traitant les invites des utilisateurs et en détectant la présence de tout concept inclus dans une liste noire pouvant être mise à jour.

« Avec la capacité de générer des images de haute qualité, les modèles T2I peuvent être exploités pour créer du contenu inapproprié », ont écrit Runtao Liu, Ashkan Khakzar et leurs collègues dans leur article.

« Pour éviter les abus, les mesures de sécurité existantes sont basées soit sur des listes noires de textes, qui peuvent être facilement contournées, soit sur une classification de contenus préjudiciables, nécessitant de grands ensembles de données pour la formation et offrant une faible flexibilité. C'est pourquoi nous proposons Latent Guard, un cadre conçu pour améliorer les mesures de sécurité. dans la génération T2I. »

Latent Guard, le cadre développé par Liu, Khakzar et leurs collègues, s'inspire des précédentes approches basées sur des listes noires pour renforcer la sécurité des réseaux génératifs T2I. Ces approches consistent essentiellement à créer des listes de mots « interdits » qui ne peuvent pas être inclus dans les invites des utilisateurs, limitant ainsi l'utilisation contraire à l'éthique de ces réseaux.

La limite de la plupart des méthodes basées sur des listes noires existantes est que les utilisateurs malveillants peuvent les contourner en reformulant leur invite, en s'abstenant d'utiliser des mots sur la liste noire. Cela signifie qu’ils pourraient en fin de compte encore être en mesure de produire le contenu offensant ou contraire à l’éthique qu’ils souhaitent créer et potentiellement diffuser.

Pour surmonter cette limitation, le framework Latent Guard va au-delà de la formulation exacte des textes saisis ou des invites utilisateur, en extrayant les fonctionnalités des textes et en les mappant sur un espace latent préalablement appris. Cela renforce sa capacité à détecter les invites indésirables, empêchant ainsi la génération d'images pour ces invites.

« Inspiré par les approches basées sur des listes noires, Latent Guard apprend un espace latent au-dessus de l'encodeur de texte du modèle T2I, où il est possible de vérifier la présence de concepts nuisibles dans les intégrations de texte d'entrée », ont écrit Liu, Khakzar et leurs collègues.

« Notre cadre proposé est composé d'un pipeline de génération de données spécifique à la tâche utilisant de grands modèles de langage, des composants architecturaux ad hoc et une stratégie d'apprentissage contrastée pour bénéficier des données générées. »

Liu, Khakzar et leurs collaborateurs ont évalué leur approche dans une série d'expériences, en utilisant trois ensembles de données différents et en comparant ses performances à celles de quatre autres méthodes de génération de T2I de base. L'un des ensembles de données qu'ils ont utilisés, à savoir l'ensemble de données CoPro, a été développé par leur équipe spécifiquement pour cette étude et contenait un total de 176 516 invites textuelles sûres, dangereuses ou contraires à l'éthique.

« Nos expériences démontrent que notre approche permet une détection robuste des invites dangereuses dans de nombreux scénarios et offre de bonnes performances de généralisation sur différents ensembles de données et concepts », ont écrit les chercheurs.

Les premiers résultats rassemblés par Liu, Khakzar et leurs collègues suggèrent que Latent Guard est une approche très prometteuse pour renforcer la sécurité des réseaux de génération T2I, réduisant ainsi le risque que ces réseaux soient utilisés de manière inappropriée. L'équipe prévoit de publier prochainement le code sous-jacent de son framework et l'ensemble de données CoPro sur GitHub, permettant ainsi à d'autres développeurs et groupes de recherche d'expérimenter leur approche.