Fournir des portraits d’anime de haute qualité alimentés par l’IA pour les débutants
L’anime, l’art japonais de l’animation, comprend des croquis dessinés à la main sous une forme abstraite avec des caractéristiques uniques et des exagérations de sujets réels. Alors que l’intelligence artificielle générative (IA) a trouvé une utilisation dans la création de contenu tels que les portraits d’anime, son utilisation pour augmenter la créativité humaine et guider les dessins à main levée s’avère difficile.
Le principal défi réside dans la génération d’images de référence appropriées correspondant aux traits incomplets et abstraits réalisés au cours du processus de dessin à main levée. Cela est particulièrement vrai lorsque les traits créés pendant le processus de dessin sont incomplets et offrent des informations insuffisantes pour que l’IA générative puisse prédire la forme finale du dessin.
Pour résoudre ce problème, une équipe de recherche du Japan Advanced Institute of Science and Technology (JAIST) et de l’Université Waseda au Japon, a cherché à développer un nouvel outil d’IA générative qui offre une assistance progressive au dessin et aide à générer des portraits d’anime à partir de croquis à main levée.
L’outil est basé sur un cadre d’apprentissage en profondeur sketch-to-image (S2I) qui fait correspondre des croquis bruts avec des vecteurs latents du modèle génératif. Il utilise une stratégie de formation en deux étapes via le StyleGAN (Style Generative Adversarial Network) pré-formé, un modèle génératif de pointe qui utilise des réseaux contradictoires pour générer de nouvelles images.
L’équipe, dirigée par le Dr Zhengyu Huang de JAIST, comprenant le professeur agrégé Haoran Xie et le professeur Kazunori Miyata, et le conférencier Tsukasa Fukusato de l’Université Waseda a proposé un nouveau « démêlage au niveau des traits », une stratégie qui associe les traits d’entrée d’un croquis à main levée avec attributs liés aux bords, dans le code structurel latent de StyleGAN.
Cette approche permet aux utilisateurs de manipuler les paramètres d’attribut, ayant ainsi une plus grande autonomie sur les propriétés des images générées. Le Dr Huang déclare : « Nous avons introduit une stratégie de formation non supervisée pour le démêlage au niveau des traits dans StyleGAN, qui permet la correspondance automatique des croquis grossiers avec des traits clairsemés avec les parties locales correspondantes dans les portraits d’anime, le tout sans avoir besoin d’étiquettes sémantiques.
Cette étude sera présentée à ACM SIGGRAPH 2023, la première conférence sur l’infographie et les techniques interactives et la seule conférence CORE classée A* dans les domaines de la recherche dans le monde entier.
En ce qui concerne le développement de l’outil, le professeur Xie ajoute : « Nous avons d’abord formé un encodeur d’images à l’aide d’un modèle StyleGAN pré-formé en tant qu’encodeur enseignant. Dans la deuxième étape, nous avons simulé le processus de dessin des images générées sans données supplémentaires pour former le encodeur de croquis pour les croquis progressifs incomplets. Cela nous a aidés à générer des images de portrait de haute qualité qui s’alignent sur les représentations désenchevêtrées de l’encodeur de l’enseignant.
Pour souligner davantage l’efficacité et la convivialité d’AniFaceDrawing pour aider les utilisateurs à créer des portraits d’anime, l’équipe a mené une étude auprès des utilisateurs. Ils ont invité 15 étudiants diplômés à dessiner des portraits numériques à main levée de style anime à l’aide de l’outil AniFaceDrawing, avec la possibilité de basculer entre les modes de guidage approximatif et détaillé pour les dessins au trait.
Alors que le premier fournissait des invites pour des parties spécifiques du visage, le second fournissait des invites pour le portrait de face en fonction de la progression du dessin de l’utilisateur. Les participants pouvaient épingler les conseils générés une fois qu’ils correspondaient à leurs attentes, et affiner davantage leur croquis de saisie. Cet outil a également permis aux participants de sélectionner une image de référence pour générer un portrait en couleur de leur croquis d’entrée. Ensuite, ils ont évalué l’outil pour la satisfaction des utilisateurs et la correspondance des conseils par le biais d’une enquête.
L’équipe a noté que le système fournissait constamment un guidage facial de haute qualité et soutenait efficacement la création de portraits de style anime, non seulement en améliorant les croquis des utilisateurs, mais également en générant des images colorées correspondantes souhaitables. Le professeur Fukusato remarque : « Notre système pourrait transformer avec succès les croquis approximatifs de l’utilisateur en portraits d’anime de haute qualité. L’étude des utilisateurs a indiqué que même les novices pouvaient faire des croquis raisonnables à l’aide du système et se retrouver avec des dessins d’art en couleur de haute qualité. »
« Notre cadre d’IA générative permet aux utilisateurs, quels que soient leur niveau de compétence et leur expérience, de créer des portraits d’anime professionnels, même à partir de dessins incomplets. Notre approche produit systématiquement des résultats de génération d’images de haute qualité tout au long du processus de création, quel que soit l’ordre de dessin ou la qualité du les premières esquisses sont », résume le professeur Miyata.
À long terme, ces découvertes peuvent contribuer à démocratiser la technologie de l’IA et aider les utilisateurs dans leurs tâches créatives, augmentant ainsi leur capacité créative sans barrières technologiques.
Fourni par Japan Advanced Institute of Science and Technology