Une IA entraînée à s'inspirer des images, pas à les copier
Les nouveaux modèles puissants d’intelligence artificielle se trompent parfois, de manière assez connue, qu’il s’agisse d’halluciner de fausses informations ou de mémoriser le travail d’autrui et de le présenter comme le leur. Pour résoudre ce dernier problème, des chercheurs dirigés par une équipe de l’Université du Texas à Austin ont développé un cadre permettant de former des modèles d’IA sur des images corrompues au-delà de toute reconnaissance.
DALL-E, Midjourney et Stable Diffusion font partie des modèles d'IA génératifs de diffusion texte-image qui peuvent transformer le texte d'un utilisateur arbitraire en images très réalistes. Tous trois font désormais face à des poursuites judiciaires de la part d'artistes qui prétendent que les échantillons générés reproduisent leur travail. Formés sur des milliards de paires image-texte qui ne sont pas accessibles au public, les modèles sont capables de générer des images de haute qualité à partir d'invites textuelles, mais peuvent s'appuyer sur des images protégées par le droit d'auteur qu'ils reproduisent ensuite.
Le cadre nouvellement proposé, appelé Ambient Diffusion, contourne ce problème en entraînant des modèles de diffusion via un accès uniquement à des données corrompues basées sur des images. Les premiers efforts suggèrent que le framework est capable de continuer à générer des échantillons de haute qualité sans jamais voir quoi que ce soit qui soit reconnaissable comme étant les images sources originales.
Ambient Diffusion a été initialement présentée à NeurIPS, une conférence sur l'apprentissage automatique, en 2023 et a depuis été adaptée et étendue. Le document de suivi, « Consistent Diffusion Meets Tweedie », disponible sur le arXiv serveur de préimpression, a été accepté à la Conférence internationale 2024 sur l'apprentissage automatique. En collaboration avec Constantinos Daskalakis du Massachusetts Institute of Technology, l’équipe a étendu le cadre pour entraîner des modèles de diffusion sur des ensembles de données d’images corrompues par d’autres types de bruit, plutôt que sur un simple masquage de pixels, et sur des ensembles de données plus volumineux.
« Le cadre pourrait également s'avérer utile pour des applications scientifiques et médicales », a déclaré Adam Klivans, professeur d'informatique, impliqué dans les travaux. « Cela serait vrai pour pratiquement toutes les recherches où il est coûteux, voire impossible, d'avoir un ensemble complet de données non corrompues, de l'imagerie des trous noirs à certains types d'IRM. »
Klivans; Alex Dimakis, professeur de génie électrique et informatique ; et d'autres collaborateurs de l'Institut multi-institutionnel pour les fondations de l'apprentissage automatique dirigé par les deux professeurs de l'UT ont d'abord expérimenté en formant un modèle de diffusion sur un ensemble de 3 000 images de célébrités, puis en utilisant ce modèle pour générer de nouveaux échantillons.
Dans l'expérience, le modèle de diffusion formé sur des données propres a copié de manière flagrante les exemples de formation. Mais lorsque les chercheurs ont corrompu les données d’entraînement, masquant aléatoirement jusqu’à 90 % des pixels individuels d’une image, et recyclé le modèle avec leur nouvelle approche, les échantillons générés sont restés de haute qualité mais semblaient très différents. Le modèle peut toujours générer des visages humains, mais ceux générés sont suffisamment différents des images d'entraînement.
« Notre cadre permet de contrôler le compromis entre la mémorisation et les performances », a déclaré Giannis Daras, un étudiant diplômé en informatique qui a dirigé les travaux. « À mesure que le niveau de corruption rencontré lors de la formation augmente, la mémorisation de l'ensemble de la formation diminue. »
Les chercheurs ont déclaré que cela indique une solution qui, même si elle peut modifier les performances, ne produira jamais de bruit. Le cadre offre un exemple de la manière dont les chercheurs universitaires font progresser l'intelligence artificielle pour répondre aux besoins sociétaux, un thème clé cette année à l'Université du Texas à Austin, qui a déclaré 2024 « Année de l'IA ».
L'équipe de recherche comprenait des membres de l'Université de Californie, de Berkeley et du MIT.
Fourni par l'Université du Texas à Austin