La folie de faire de l’art avec l’IA générative text-to-image
Faire de l’art en utilisant l’intelligence artificielle n’est pas nouveau. C’est aussi vieux que l’IA elle-même.
Ce qui est nouveau, c’est qu’une vague d’outils permet désormais à la plupart des gens de générer des images en saisissant une invite de texte. Tout ce que vous avez à faire est d’écrire « un paysage dans le style de van Gogh » dans une zone de texte, et l’IA peut créer une belle image comme indiqué.
La puissance de cette technologie réside dans sa capacité à utiliser le langage humain pour contrôler la génération artistique. Mais ces systèmes traduisent-ils fidèlement la vision d’un artiste ? L’introduction du langage dans la création artistique peut-elle vraiment conduire à des percées artistiques ?
Sorties d’ingénierie
J’ai travaillé avec l’IA générative en tant qu’artiste et informaticien pendant des années, et je dirais que ce nouveau type d’outil limite le processus créatif.
Lorsque vous écrivez une invite de texte pour générer une image avec l’IA, les possibilités sont infinies. Si vous êtes un utilisateur occasionnel, vous serez peut-être satisfait de ce que l’IA génère pour vous. Et les startups et les investisseurs ont investi des milliards dans cette technologie, la considérant comme un moyen simple de générer des graphiques pour des articles, des personnages de jeux vidéo et des publicités.
En revanche, un artiste peut avoir besoin d’écrire une invite de type essai pour générer une image de haute qualité qui reflète sa vision, avec la bonne composition, le bon éclairage et l’ombrage correct. Cette longue invite n’est pas nécessairement descriptive de l’image, mais utilise généralement de nombreux mots-clés pour invoquer le système de ce qui est dans l’esprit de l’artiste. Il y a un terme relativement nouveau pour cela : ingénierie rapide.
Fondamentalement, le rôle d’un artiste utilisant ces outils est réduit à la rétro-ingénierie du système pour trouver les bons mots-clés pour obliger le système à générer la sortie souhaitée. Il faut beaucoup d’efforts, et beaucoup d’essais et d’erreurs, pour trouver les mots justes.
L’IA n’est pas aussi intelligente qu’il n’y paraît
Pour apprendre à mieux contrôler les sorties, il est important de reconnaître que la plupart de ces systèmes sont formés sur des images et des légendes provenant d’Internet.
Pensez à ce qu’une légende d’image typique raconte à propos d’une image. Les légendes sont généralement écrites pour compléter l’expérience visuelle de la navigation sur le Web.
Par exemple, la légende peut décrire le nom du photographe et du détenteur des droits d’auteur. Sur certains sites Web, comme Flickr, une légende décrit généralement le type d’appareil photo et l’objectif utilisé. Sur d’autres sites, la légende décrit le moteur graphique et le matériel utilisé pour rendre une image.
Ainsi, pour écrire une invite de texte utile, les utilisateurs doivent insérer de nombreux mots-clés non descriptifs pour que le système d’IA crée une image correspondante.
Les systèmes d’IA d’aujourd’hui ne sont pas aussi intelligents qu’ils le paraissent ; ce sont essentiellement des systèmes de récupération intelligents qui ont une énorme mémoire et fonctionnent par association.
Des artistes frustrés par un manque de contrôle
Est-ce vraiment le genre d’outil qui peut aider les artistes à créer de superbes œuvres ?
Chez Playform AI, une plateforme artistique d’IA générative que j’ai fondée, nous avons mené une enquête pour mieux comprendre les expériences des artistes avec l’IA générative. Nous avons recueilli les réponses de plus de 500 artistes numériques, peintres traditionnels, photographes, illustrateurs et graphistes qui avaient utilisé des plateformes telles que DALL-E, Stable Diffusion et Midjourney, entre autres.
Seuls 46 % des répondants ont trouvé ces outils « très utiles », tandis que 32 % les ont trouvés assez utiles mais n’ont pas pu les intégrer à leur flux de travail. Le reste des utilisateurs (22 %) ne les ont pas trouvés utiles du tout.
La principale limite mise en évidence par les artistes et les designers était le manque de contrôle. Sur une échelle de 0 à 10, 10 étant le plus de contrôle, les répondants ont décrit leur capacité à contrôler le résultat comme étant comprise entre 4 et 5. La moitié des répondants ont trouvé les résultats intéressants, mais pas d’une qualité suffisamment élevée pour être utilisés dans leur pratique.
En ce qui concerne les croyances quant à savoir si l’IA générative influencerait leur pratique, 90 % des artistes interrogés pensaient que ce serait le cas ; 46 % pensaient que l’effet serait positif, 7 % prédisant qu’il aurait un effet négatif. Et 37 % pensaient que leur pratique serait affectée, mais ne savaient pas de quelle manière.
Le meilleur art visuel transcende le langage
Ces limitations sont-elles fondamentales ou disparaîtront-elles simplement à mesure que la technologie s’améliorera ?
Bien sûr, les nouvelles versions de l’IA générative donneront aux utilisateurs plus de contrôle sur les sorties, ainsi que des résolutions plus élevées et une meilleure qualité d’image.
Mais pour moi, la principale limitation, en ce qui concerne l’art, est fondamentale : c’est le processus d’utilisation du langage comme principal moteur de génération de l’image.
Les artistes visuels, par définition, sont des penseurs visuels. Lorsqu’ils imaginent leur travail, ils s’inspirent généralement de références visuelles et non de mots – un souvenir, une collection de photographies ou d’autres œuvres d’art qu’ils ont rencontrées.
Lorsque le langage est aux commandes de la génération d’images, je vois une barrière supplémentaire entre l’artiste et la toile numérique. Les pixels ne seront rendus qu’à travers le prisme du langage. Les artistes perdent la liberté de manipuler les pixels en dehors des limites de la sémantique.
Il y a une autre limitation fondamentale dans la technologie texte-image.
Si deux artistes saisissent exactement la même invite, il est très peu probable que le système génère la même image. Ce n’est pas dû à quoi que ce soit que l’artiste ait fait ; les différents résultats sont simplement dus au fait que l’IA part de différentes images initiales aléatoires.
En d’autres termes, la production de l’artiste se résume au hasard.
Près des deux tiers des artistes que nous avons interrogés craignaient que leurs générations d’IA ne soient similaires aux œuvres d’autres artistes et que la technologie ne reflète pas leur identité, voire ne la remplace complètement.
La question de l’identité de l’artiste est cruciale lorsqu’il s’agit de faire et de reconnaître l’art. Au 19ème siècle, lorsque la photographie a commencé à devenir populaire, il y avait un débat pour savoir si la photographie était une forme d’art. Il a fallu un procès en France en 1861 pour décider si la photographie pouvait être protégée par le droit d’auteur en tant que forme d’art. La décision reposait sur la question de savoir si l’identité unique d’un artiste pouvait être exprimée à travers des photographies.
Ces mêmes questions émergent lorsque l’on considère les systèmes d’IA qui sont enseignés avec les images existantes d’Internet.
Avant l’émergence de l’incitation du texte à l’image, créer de l’art avec l’IA était un processus plus élaboré : les artistes formaient généralement leurs propres modèles d’IA en fonction de leurs propres images. Cela leur a permis d’utiliser leur propre travail comme références visuelles et de conserver plus de contrôle sur les sorties, qui reflétaient mieux leur style unique.
Les outils de conversion de texte en image peuvent être utiles pour certains créateurs et utilisateurs quotidiens occasionnels qui souhaitent créer des graphiques pour une présentation de travail ou une publication sur les réseaux sociaux.
Mais quand il s’agit d’art, je ne vois pas comment un logiciel de synthèse d’images peut refléter de manière adéquate les véritables intentions de l’artiste ou capturer la beauté et la résonance émotionnelle des œuvres qui saisissent les spectateurs et leur font voir le monde à nouveau.