Un nouveau cadre peut générer des images plus adaptées aux attentes des utilisateurs

Un nouveau cadre peut générer des images plus adaptées aux attentes des utilisateurs

Les modèles génératifs, réseaux de neurones artificiels capables de générer des images ou des textes, sont devenus de plus en plus avancés ces dernières années. Ces modèles peuvent également être avantageux pour créer des images annotées afin de former des algorithmes de vision par ordinateur, conçus pour classer les images ou les objets qu'elles contiennent.

Alors que de nombreux modèles génératifs, en particulier les réseaux contradictoires génératifs (GAN), peuvent produire des images synthétiques qui ressemblent à celles capturées par les caméras, contrôler de manière fiable le contenu des images qu'ils produisent s'est avéré un défi. Dans de nombreux cas, les images générées par les GAN ne répondent pas aux exigences exactes des utilisateurs, ce qui limite leur utilisation pour diverses applications.

Des chercheurs de l'Université nationale des sciences et technologies de Séoul ont récemment introduit un nouveau cadre de génération d'images conçu pour incorporer le contenu que les utilisateurs souhaitent que les images générées contiennent. Ce cadre, présenté dans un article publié sur le arXiv serveur de préimpression, permet aux utilisateurs d'exercer un plus grand contrôle sur le processus de génération d'images, produisant des images plus alignées avec celles qu'ils envisageaient.

« Des progrès remarquables ont été réalisés dans la génération d'images avec l'introduction de modèles génératifs », ont écrit Giang H. Le, Anh Q. Nguyen et les chercheurs dans leur article.

« Cependant, contrôler précisément le contenu des images générées reste une tâche difficile en raison de leur objectif fondamental de formation. Cet article relève ce défi en proposant un nouveau cadre de génération d'images explicitement conçu pour incorporer le contenu souhaité dans les images de sortie. »

Contrairement à de nombreux modèles existants de génération d'images, le cadre développé par Le, Nguyen et leurs collègues peut être alimenté par une image du monde réel, qu'il utilise ensuite pour guider le processus de génération d'images. Le contenu des images de synthèse qu'il génère ressemble donc beaucoup à celui de l'image de référence, même si les images elles-mêmes sont différentes.

« Le framework utilise des techniques de codage avancées, intégrant des sous-réseaux appelés modules de fusion de contenu et de codage de fréquence », ont écrit Le, Nguyen et leurs collègues.

« Le module de codage de fréquence capture d'abord les caractéristiques et les structures des images de référence en se concentrant exclusivement sur les composantes de fréquence sélectionnées. Par la suite, le module de fusion de contenu génère un vecteur de guidage de contenu qui encapsule les caractéristiques de contenu souhaitées. »

Le cadre développé par les chercheurs comporte donc deux volets distincts. Le premier est un encodeur, un module qui extrait les caractéristiques liées au contenu de l'image de référence transmise au modèle. Le second est un module de fusion de contenu, qui génère des vecteurs pour les images nouvellement générées, guidés par le contenu extrait de l'image de référence.

« Pendant le processus de génération d'images, les vecteurs de guidage du contenu issus d'images réelles sont fusionnés avec les vecteurs de bruit projetés », ont écrit les auteurs. « Cela garantit la production d'images générées qui non seulement maintiennent un contenu cohérent à partir des images directrices, mais présentent également diverses variations stylistiques. »

Le, Nguyen et leurs collègues ont évalué les performances de leur framework dans une série de tests, comparant également les images générées à celles créées par un modèle conventionnel basé sur le GAN. Les images qu'ils ont utilisées pour entraîner le modèle et comme références pour guider le processus de génération d'images ont été dérivées de divers ensembles de données, notamment les ensembles de données Flickr-Faces-High Quality, Animal Faces High Quality et Large-scale Scene Understanding.

Les résultats de ces premiers tests étaient très prometteurs, car le nouveau cadre s'est avéré produire des images synthétiques qui correspondaient mieux à une image de référence en termes de contenu par rapport à celles créées par le modèle conventionnel basé sur le GAN. En moyenne, les images générées par le framework ont ​​conservé 85 % des attributs de l'image de référence.

Cette étude récente pourrait éclairer le développement de modèles de génération d’images qui créent des images plus adaptées aux attentes des utilisateurs. Ces modèles pourraient être utilisés pour compiler des ensembles de données soigneusement adaptés afin de former des algorithmes de classification d’images, mais pourraient également être intégrés à des plateformes basées sur l’IA pour les concepteurs et autres professionnels de la création.