Les modèles d'images AI gagnent un avantage créatif en amplifiant les fonctionnalités à basse fréquence
Récemment, les modèles de génération d'images basés sur du texte peuvent créer automatiquement des images à haute résolution et de haute qualité uniquement à partir de descriptions de langage naturel. Cependant, lorsqu'un exemple typique comme le modèle de diffusion stable reçoit le texte «créatif», sa capacité à générer des images vraiment créatives reste limitée.
Les chercheurs kaist ont développé une technologie qui peut améliorer la créativité de modèles de génération d'images basés sur du texte tels que la diffusion stable sans formation supplémentaire, permettant à l'IA de dessiner des conceptions de chaises créatives qui sont loin d'être ordinaires.
L'équipe de recherche du professeur Jaesik Choi à la Kim Jaechul Graduate School of IA, en collaboration avec Naver AI Lab, a développé cette technologie pour améliorer la génération créative de modèles générations d'IA sans avoir besoin d'une formation supplémentaire. L'œuvre est publiée sur le arxiv Préimprimée serveur Le code est disponible sur GitHub.
L'équipe de recherche du professeur Choi a développé une technologie pour améliorer la génération créative en amplifiant les cartes de fonctionnalités internes des modèles de génération d'images basés sur du texte. Ils ont également découvert que des blocs peu profonds dans le modèle jouent un rôle crucial dans la génération créative. Ils ont confirmé que l'amplification des valeurs dans la région à haute fréquence après convertir les cartes de caractéristiques en domaine fréquentiel peut entraîner du bruit ou des motifs de couleur fragmentés.
En conséquence, l'équipe de recherche a démontré que l'amplification de la région à basse fréquence des blocs peu profonds peut améliorer efficacement la génération créative.

Compte tenu de l'originalité et de l'utilité comme deux éléments clés définissant la créativité, l'équipe de recherche a proposé un algorithme qui sélectionne automatiquement la valeur d'amplification optimale pour chaque bloc dans le modèle génératif.
Grâce à l'algorithme développé, une amplification appropriée des cartes de caractéristiques internes d'un modèle de diffusion stable pré-formé a pu améliorer la génération créative sans données de classification ou formation supplémentaires.
L'équipe de recherche a prouvé quantitativement, en utilisant diverses mesures, que leur algorithme développé peut générer des images plus nouvelles que celles des modèles existants, sans compromettre de manière significative l'utilité.
En particulier, ils ont confirmé une augmentation de la diversité d'images en atténuant le problème d'effondrement du mode qui se produit dans le modèle SDXL-Turbo, qui a été développé pour améliorer considérablement la vitesse de génération d'images du modèle stable de diffusion XL (SDXL). En outre, les études des utilisateurs ont montré que l'évaluation humaine a également confirmé une amélioration significative de la nouveauté par rapport à l'utilité par rapport aux méthodes existantes.

Jiyeon Han et Dahee Kwon, Ph.D. Les candidats de Kaist et les co-auteurs de l'article ont déclaré: «Il s'agit de la première méthodologie pour améliorer la génération créative de modèles génératifs sans nouvelle formation ni réglage fin. Nous avons montré que la créativité latente dans les modèles génératifs d'IA formés peut être amélioré grâce à la manipulation de la carte des fonctionnalités.»
Ils ont ajouté: « Cette recherche facilite la génération d'images créatives en utilisant uniquement du texte à partir de modèles formés existants. Il devrait fournir une nouvelle inspiration dans divers domaines, tels que la conception créative des produits, et contribuer à l'application pratique et utile de modèles d'IA dans l'écosystème créatif. »
Cette recherche, co-écrite par Jiyeon Han et Dahee Kwon, Ph.D. Les candidats de la Kim Jaechul Graduate School of IA ont été présentés le 16 juin à la Conférence internationale sur la vision par ordinateur et la reconnaissance des modèles (CVPR), une conférence académique internationale.
