Une étude révèle que les générateurs d'images échouent aux instructions de base malgré le succès esthétique

Peut-on vraiment faire confiance à l’intelligence artificielle pour illustrer nos idées ? Une équipe de scientifiques a examiné les capacités de Midjourney et de DALL·E, deux logiciels d'intelligence artificielle générative (GAI), à produire des images à partir de phrases simples. Le verdict est mitigé… entre prouesses esthétiques et erreurs de débutant, les machines ont encore du chemin à parcourir.

Depuis l'émergence de GAI tels que Midjourney et DALL·E, créer des images à partir de phrases simples est devenu une réalité fascinante, et parfois même inquiétante. Mais derrière cette prouesse technique se cache une question essentielle : comment ces machines traduisent-elles les mots en visuels ? C’est ce qu’ont cherché à comprendre quatre chercheurs de l’Université de Liège, de l’Université de Lorraine et de l’EHESS en menant une étude interdisciplinaire mêlant sémiotique, informatique et histoire de l’art.

L'article est publié dans la revue Revue sémiotique.

« Notre approche repose sur une série de tests rigoureux, » explique Maria Giulia Dondero, sémioticienne à l'Université de Liège. « Nous avons soumis des demandes très précises à ces deux systèmes d'IA et analysé les images produites selon des critères issus des sciences humaines, tels que l'agencement des formes, des couleurs, des regards, le dynamisme spécifique de l'image fixe, le rythme de son déploiement, etc. »

Le résultat ? Les systèmes d’IA sont capables de générer des images censées être esthétiques, mais ont souvent du mal à suivre même les instructions les plus simples.

L’étude révèle des difficultés surprenantes, comme le fait que les GAI ne comprennent pas bien la négation (« un chien sans queue » montre un chien avec une queue ou un cadre qui la cache), des relations spatiales complexes, le bon positionnement des éléments, ou encore le rendu cohérent des relations de regard et de distance (« deux femmes derrière une porte »). Ils traduisent parfois des actions simples comme « lutte » dans des scènes de danse, et peinent à représenter des séquences temporelles telles que le début et la fin des gestes (« commencer à manger » ou « avoir fini de manger »).

« Ces GAI nous permettent de réfléchir sur notre propre manière de voir et de représenter le monde, » » précise Enzo D'Armenio, ancien chercheur à l'ULiège, professeur junior à l'Université de Lorraine et auteur principal de l'article. « Ils reproduisent des stéréotypes visuels à partir de leurs bases de données, souvent construites à partir d’images occidentales, et révèlent les limites de la traduction entre langage verbal et visuel. »

Répéter, valider et analyser

Les résultats obtenus par l’équipe de recherche ont été validés par répétition – jusqu’à cinquante générations par invite – afin d’établir leur robustesse statistique. Les modèles possèdent également des signatures esthétiques distinctes. Faveurs à mi-parcours « esthétisé » rendus, avec des artefacts ou des textures qui embellissent l'image, parfois au détriment du strict respect des consignes, tandis que DALL·E, qui est plus « neutre » en termes de texture, offre un plus grand contrôle de composition mais peut varier davantage en termes d'orientation ou de nombre d'objets.

La série de 50 tests à l'invite « trois lignes blanches verticales sur fond noir » illustrent ces tendances : cohérence relative mais artefacts fréquents pour Midjourney ; variabilité du nombre et de l'orientation des lignes pour DALL·E.

Quand l’IA dessine nos mots : une étude révèle que les générateurs d’images échouent aux instructions de base malgré leur succès esthétique

L’étude souligne que ces IA sont statistiques. « Les GAI produisent le résultat le plus plausible en fonction de leurs bases de données de formation et des paramètres (parfois éditoriaux) de leurs concepteurs, » explique Adrien Deliège, mathématicien à l'ULiège. « Ces choix pourraient normaliser le regard et véhiculer ou réorienter les stéréotypes. »

Un exemple révélateur : étant donné l'invite « Le PDG prononce un discours, » DALL·E peut générer principalement des femmes, tandis que d'autres modèles produisent presque exclusivement des hommes blancs d'âge moyen, signe que l'empreinte des concepteurs et des ensembles de données influence le fonctionnement de la machine. « vision » du monde.

Les chercheurs soulignent que l’évaluation de ces technologies nécessite plus que simplement mesurer leur efficacité statistique ; cela nécessite également d’utiliser des outils issus des sciences humaines pour comprendre leur fonctionnement culturel et symbolique.

« Les outils d'IA ne sont pas simplement des outils automatiques, » conclut Enzo D'Armenio. « Ils traduisent nos mots selon leur propre logique, influencée par leurs bases de données et leurs algorithmes. Les sciences humaines ont un rôle essentiel à jouer pour les comprendre et les évaluer. »

Et même si ces outils d’IA peuvent déjà nous aider à illustrer nos idées, il leur reste encore un long chemin à parcourir avant de pouvoir les traduire parfaitement.