Créer des collages artistiques grâce à l’apprentissage par renforcement
Des chercheurs de l’Université nationale de Séoul ont récemment tenté de former un agent d’intelligence artificielle (IA) pour créer des collages (c’est-à-dire des œuvres d’art créées en collant divers morceaux de matériaux ensemble), reproduisant des œuvres d’art renommées et d’autres images. Le modèle proposé a été présenté dans un article pré-imprimé sur arXiv et présenté à l’ICCV 2023 en octobre.
« L’art du collage nécessite un talent artistique humain élevé, et nous nous sommes demandé à quoi ressembleraient les œuvres de collage créées par l’IA, » les auteurs ont déclaré à Tech Xplore par e-mail, « Les outils de génération d’images IA existants comme DALL-E ou StableDiffusion peuvent déjà générer des images de collage, mais ce ne sont que des « imitations de collage » à partir de pixels, et non le collage réel issu de la réalisation des véritables étapes du collage. Ce que nous voulions faire était de entraîner l’IA à créer un « vrai collage ». »
Dans une étude précédente axée sur la génération de peinture, les chercheurs ont utilisé l’apprentissage par renforcement (RL) pour apprendre à l’IA à peindre en suivant des étapes similaires à celles suivies par les humains. Ils ont alors commencé à se demander si cela pouvait également être réalisé pour la création de collages et ont commencé à travailler sur leur générateur d’œuvres d’art de collage autonome basé sur l’apprentissage par renforcement.
L’objectif principal de leur récent article était donc de former un agent d’IA à créer des collages aussi similaires que possible aux images cibles (par exemple, peintures, photographies, etc.) en déchirant et en collant plusieurs matériaux, en utilisant l’apprentissage par renforcement. Ces collages seraient créés à l’aide d’un ensemble de matériaux fournis par des utilisateurs humains.
« Notre modèle RL doit faire comprendre à un agent ce qu’est un collage et comment bien le faire, » expliquent les auteurs. « Comme RL nécessite fondamentalement de nombreux essais et erreurs, le modèle doit acquérir de l’expérience en interagissant avec une toile et en produisant un véritable collage. »
Comme les collages sont constitués de divers morceaux de matériaux, pour créer efficacement ces œuvres d’art, un agent doit d’abord tester diverses options de copier-coller pour finalement déterminer quels matériaux produisent un collage qui ressemble le mieux aux images cibles. Les chercheurs ont constaté qu’au départ, leur modèle fonctionnait très mal, mais qu’au fil du temps, ses compétences se sont considérablement améliorées.
« L’agent RL apprend à augmenter la récompense, la récompense étant définie comme une amélioration de la similarité entre son canevas et une image cible, » disent les auteurs. « La fonction de récompense continue également d’évoluer au fil du temps, apprenant à mieux évaluer la similitude entre le collage réalisé par l’agent et l’image cible. »
Au cours de la formation, le modèle des chercheurs a reçu une image aléatoire attribuée au hasard et a tenté de créer un collage reproduisant cette image sur une toile blanche. À chaque étape du collage, l’agent sélectionne un matériau aléatoire parmi les options disponibles et choisit comment le couper, le mettre au rebut et le coller sur la toile.
« Étant donné que les images et le matériel cibles sont donnés de manière aléatoire lors de la formation, l’agent devient capable de gérer n’importe quelle cible et matériel à un stade ultérieur. » disent les auteurs. « L’ensemble de ce processus est un peu compliqué pour l’utilisation du RL sans modèle existant, nous avons donc développé un environnement de collage différenciable pour permettre à l’agent de suivre facilement la dynamique du collage. Cela nous a permis d’appliquer une RL basée sur un modèle et d’améliorer les performances. »
Le programme de formation RL basé sur un modèle développé par les chercheurs s’inspire des travaux antérieurs sur les peintures basées sur RL. Cependant, l’équipe a développé son propre algorithme RL basé sur un modèle qui aborde la dynamique associée à la création de collages, qui est plus complexe que celle qui sous-tend la peinture.
« Alors que la peinture utilise un coup de pinceau prédéfini, un collage doit observer l’apparence du matériau donné et comprendre comment le manipuler pour créer un fragment d’image approprié pour le collage total, comprenant la forme, la texture, les couleurs et les coordonnées. » disent les auteurs. « Puisque SAC permet à un agent d’expérimenter diverses actions plus efficacement dans l’espace d’action continu que DDPG, qui était utilisé dans les peintures, SAC correspond à notre cas. »
Pour générer efficacement des collages, les auteurs ont utilisé leur modèle entraîné comme unité génératrice de collages partiels. Cette unité s’est avérée produire des collages haute résolution qui ressemblaient beaucoup à diverses images cibles.
« Nous avons également développé un module d’analyse de la complexité de l’image cible afin d’attribuer davantage de charge de travail au générateur de collage partiel à l’endroit où la complexité est élevée. » Lee a expliqué. « Ce module peut améliorer la qualité esthétique des collages. »
Un avantage crucial de l’architecture de l’équipe est qu’elle ne nécessite aucun échantillon de collage ni donnée de démonstration, car elle a simplement été formée à l’aide d’exemples de matériaux et d’images cibles. Notamment, ces matériaux et images sont beaucoup plus faciles à collectionner que les œuvres d’art originales.
« Sans données ni connaissances artistiques, l’agent a appris de manière autonome à réaliser un collage, » disent les auteurs. « La capacité de collage finale a été obtenue par la propre exploration de l’agent, ce qui constitue la découverte notable de ce travail ; cela montre la puissante capacité de RL en tant que domaine d’apprentissage sans données. »
À mesure que le modèle formé par l’équipe a progressivement compris le processus de création de collages, celui-ci a pu se généraliser à un large éventail d’images et de scénarios. Jusqu’à présent, il n’a été testé que dans des simulations. Cependant, s’il est appliqué à un robot humanoïde ou à une main robotique, le modèle pourrait également fournir des « plans » pour la création de collages physiques.
« Construire un environnement dans lequel l’agent RL peut apprendre correctement était très difficile, » disent les auteurs. « Nous avons passé beaucoup de temps à développer et définir des dynamiques et des actions de collage légitimes pour RL. De plus, pour gagner du temps de formation, nous devons les garder aussi compacts et efficaces que possible. Plus encore, nous devions également conserver la dynamique différenciable pour notre schéma RL basé sur un modèle. »
L’art étant très subjectif, évaluer la qualité des collages produits par le modèle est un défi. Les chercheurs ont d’abord mené une étude auprès des utilisateurs, demandant à divers participants humains de partager leurs opinions et leurs commentaires sur les collages créés par l’IA.
« Nous avons mené une étude auprès des utilisateurs, mais cela n’est peut-être pas suffisant, » disent les auteurs. « Après mûre réflexion pour une évaluation plus objective, nous avons décidé d’utiliser CLIP, un grand modèle pré-entraîné en langage de vision. Étant donné que CLIP est formé avec environ 400 millions de paires texte-image, nous pensons qu’il a la capacité d’évaluer de manière plus objective qu’une étude utilisateur. Avec l’étude des utilisateurs et CLIP, nous avons comparé notre modèle avec d’autres modèles de génération basés sur des pixels en évaluant le collage et la cohérence du contenu des images générées. »
L’étude des utilisateurs et l’évaluation basée sur CLIP réalisée par les chercheurs ont donné des résultats similaires. Dans ces deux tests, le nouveau modèle s’est avéré surpasser les autres modèles pour la génération de collages.
Le modèle présenté dans cet article récent pourrait bientôt être développé et testé pour permettre des styles personnalisés utilisant une gamme plus large d’images et de matériaux. De plus, le travail de l’équipe pourrait inspirer le développement d’outils d’IA supplémentaires pour générer divers types d’œuvres d’art.
« Nous souhaitons maintenant développer des stratégies permettant à nos modèles de s’adapter à diverses préférences de style, » ont ajouté les auteurs. « Dans le cadre d’un travail futur, nous envisageons de développer une interface utilisateur interactive, qui peut refléter les préférences de l’utilisateur lors de la création de collages par notre modèle. »