Un canevas interactif alimenté par un grand langage pour les artistes génératifs

Un canevas interactif alimenté par un grand langage pour les artistes génératifs

Crédit : Université de Stanford

Les artistes génératifs travaillent en code. À l’aide de langages de programmation tels que Processing ou des outils de conversion texte-image d’IA, ils traduisent une sémantique expressive en lignes de code qui forment des motifs tourbillonnants et colorés ou des paysages surréalistes.

Mais le codage artistique est un processus long et compliqué. Alors qu’une gomme de crayon peut corriger une ligne errante ou qu’un peu de jaune peut éclaircir l’horizon sombre d’un tableau, l’amélioration de l’art génératif nécessite des essais et des erreurs à travers de nombreuses itérations avec des interfaces souvent frustrantes et opaques.

Après avoir interrogé des artistes numériques experts sur ces frustrations créatives, des chercheurs de Stanford ont développé un outil appelé Spellburst pour améliorer le processus d’idéation et d’édition.

« Traduire l’imagination d’un artiste en code prend beaucoup de temps et c’est très difficile », déclare Hariharan Subramonyam, professeur adjoint à la Graduate School of Education et professeur à l’Institut de Stanford pour l’IA centrée sur l’humain.

« Un grand modèle de langage peut vous donner un bon point de départ. Mais lorsque l’artiste souhaite explorer différentes textures, différentes couleurs ou motifs, il souhaite alors un contrôle plus précis, ce que les grands modèles de langage ne peuvent pas fournir. Spellburst aide essentiellement les artistes de manière transparente. basculer entre l’espace sémantique et le code. »

Construit avec le grand modèle de langage GPT-4, Spellburst permet aux artistes de saisir une invite initiale, par exemple « une image en vitrail d’un beau et lumineux bouquet de roses ». Le modèle génère ensuite le code pour restituer ce concept. Mais que se passe-t-il si les fleurs sont trop roses ou si le vitrail ne semble pas tout à fait correct ? Les artistes peuvent ensuite ouvrir un panneau de curseurs dynamiques générés à l’aide de l’invite précédente pour modifier n’importe quel aspect de l’image ou ajouter des notes de modification (« rendre les fleurs d’un rouge foncé »).

Ces créateurs peuvent fusionner différentes versions (« combiner la couleur des fleurs en version 4 avec la forme du vase en version 9 »). L’outil permet également aux artistes de passer de l’exploration basée sur des invites à l’édition de programme : ils peuvent cliquer sur l’image pour révéler le code, permettant ainsi un réglage plus précis.

« Des avancées créatives plus importantes »

Pour mieux éclairer la conception de Spellburst, l’équipe de recherche a interrogé 10 codeurs créatifs experts sur la façon dont ils développent leurs concepts, leur flux de travail créatif et leurs plus grands défis. Plus tard, l’équipe a testé l’outil avec des artistes génératifs experts.

« Les retours ont été globalement très positifs », déclare Subramonyam. « Le grand modèle de langage aide les artistes à passer plus rapidement de l’espace sémantique au code, mais il les aide également à explorer de nombreuses variantes différentes et à faire de plus grands progrès créatifs. »

L’outil a bien sûr ses limites. L’équipe de recherche a constaté des erreurs et des résultats inattendus dans certaines invites, en particulier dans les fusions de versions, et il n’était pas clair quelles invites conduiraient aux résultats souhaités. De plus, le petit échantillon d’artistes fournissant des commentaires ne représente certainement pas l’ensemble de la communauté générative des artistes.

Mais nous espérons que cet outil sera utile aux artistes codeurs et peut-être même à un public plus large, dit Subramonyam.

« Nous souhaitons publier l’outil en open source plus tard cette année afin que les artistes puissent commencer à l’utiliser, mais nous souhaitons également étudier comment un outil comme celui-ci peut aider les novices à apprendre à créer de l’art avec du code. »

Les résultats sont publiés sur le arXiv serveur de préimpression.