Le « désapprentissage » automatique aide l’IA générative à oublier les contenus violents et protégés par le droit d’auteur
Lorsque les gens apprennent des choses qu’ils ne devraient pas savoir, il peut être difficile de leur faire oublier cette information. Cela est également vrai pour les programmes d’intelligence artificielle en croissance rapide, formés à penser comme nous, et cela est devenu un problème car ils se heurtent à des défis liés à l’utilisation de matériel protégé par le droit d’auteur et à des problèmes de confidentialité.
Pour répondre à ce défi, des chercheurs de l'Université du Texas à Austin ont développé ce qu'ils pensent être la première méthode de « désapprentissage automatique » appliquée à l'IA générative basée sur l'image. Cette méthode offre la possibilité de regarder sous le capot et de bloquer et supprimer activement toute image violente ou œuvre protégée par le droit d'auteur sans perdre le reste des informations du modèle. L'étude est publiée sur le arXiv serveur de préimpression.
« Lorsque vous entraînez ces modèles sur des ensembles de données aussi massifs, vous êtes forcément amené à inclure des données indésirables », a déclaré Radu Marculescu, professeur au département de génie électrique et informatique de la famille Chandra de la Cockrell School of Engineering et l'un des dirigeants. sur le projet.
« Auparavant, le seul moyen de supprimer le contenu problématique était de tout supprimer, de recommencer, de supprimer manuellement toutes ces données et de recycler le modèle. Notre approche offre la possibilité de le faire sans avoir à recycler le modèle à partir de zéro. »
Les modèles d’IA générative sont principalement formés à partir de données disponibles sur Internet en raison de la quantité inégalée d’informations qu’elles contiennent. Mais il contient également d’énormes quantités de données protégées par le droit d’auteur, en plus des informations personnelles et des contenus inappropriés.
Soulignant ce problème, le New York Times a récemment poursuivi OpenAI, créateur de ChatGPT, arguant que la société d'IA utilisait illégalement ses articles comme données de formation pour aider ses chatbots à générer du contenu.
« Si nous voulons rendre les modèles d'IA génératifs utiles à des fins commerciales, c'est une étape que nous devons intégrer, la capacité de garantir que nous n'enfreignons pas les lois sur le droit d'auteur, que nous n'abusons pas des informations personnelles ou que nous n'utilisons pas de contenu préjudiciable », a déclaré Guihong Li. un assistant de recherche diplômé dans le laboratoire de Marculescu qui a travaillé sur le projet en tant que stagiaire chez JPMorgan Chase et l'a finalisé à l'UT.
Les modèles image à image sont au centre de cette recherche. Ils prennent une image d'entrée et la transforment (par exemple en créant un croquis, en modifiant une scène particulière, etc.) en fonction d'un contexte ou d'une instruction donnée.
Ce nouvel algorithme de désapprentissage automatique offre la possibilité à un modèle d'apprentissage automatique d'« oublier » ou de supprimer du contenu s'il est signalé pour une raison quelconque, sans qu'il soit nécessaire de recycler le modèle à partir de zéro. Les équipes humaines gèrent la modération et la suppression du contenu, fournissant ainsi un contrôle supplémentaire sur le modèle et la capacité de répondre aux commentaires des utilisateurs.
Le désapprentissage automatique est une branche évolutive du domaine qui a été principalement appliquée aux modèles de classification. Ces modèles sont entraînés à trier les données en différentes catégories, par exemple si une image montre un chien ou un chat.
L'application du désapprentissage automatique aux modèles génératifs est « relativement inexplorée », écrivent les chercheurs dans l'article, en particulier lorsqu'il s'agit d'images.