Ce que DALL-E révèle sur la créativité humaine

La version de DALL-E d’un mignon babouin naviguant sur un canot coloré au coucher du soleil. 1 crédit

Les images souvent délicieuses et saisissantes créées par la dernière génération de générateurs de texte à image, illustrées par DALL-E 2, Midjourney et Stable Diffusion, ont suscité beaucoup de buzz dans les mondes des arts et de l’IA. Les images, générées à partir de simples invites textuelles (par exemple, un babouin naviguant sur un canot coloré), ressemblent beaucoup aux produits de la créativité humaine intelligente.

Pour explorer à quel point ces modèles sont vraiment créatifs et ce qu’ils peuvent nous apprendre sur la nature de nos propres propensions à innover, nous avons interrogé quatre autorités sur l’intelligence artificielle, le cerveau et la créativité (et nous avons également demandé à GPT-3, un générateur de langage modèle qui est un cousin proche de DALL-E) pour expliquer ce qu’ils pensent des capacités et du potentiel artistique de DALL-E.

Comment fonctionne DALL-E

DALL-E commence par prendre des milliards de morceaux de texte sur Internet et les traduit en une abstraction, qu’il stocke dans un emplacement dans un espace « latent » ou logique. Dans l’univers des choses descriptibles, par exemple, « babouin » sera « repéré » par de fortes associations proches d’autres primates, probablement non loin de « l’Afrique », de « savane » ou de « zoo ». Les images, elles aussi, sont lues sur Internet et sont associées à leurs légendes et transposées dans les mêmes zones logiques. Ainsi, le texte et les descriptions pertinentes des images, tout en restant distincts, sont localisés par de fortes associations proches les unes des autres. Cela permet à DALL-E de trouver les types d’images dans les espaces indiqués par l’invite de texte de l’utilisateur. Il génère ensuite un ensemble de fonctionnalités clés qu’il a appris que cette image pourrait inclure. Dans notre exemple « babouin dans un canot », il proposerait des traits caractéristiques pour le babouin, disons la couleur de sa fourrure, ses bras et ses mains d’apparence humaine, ou la forme canine de sa tête, ainsi que les traits caractéristiques d’un canot, dites le plat-bord incurvé. Ensuite, DALL-E déploie ce qu’on appelle un modèle de diffusion, qui commence par un bruit statique, puis sculpte les pixels d’une manière informée par la représentation latente de la description textuelle, créant ainsi des images uniques à chaque exécution du programme.

Le premier modèle de diffusion a été inventé à Stanford en 2015 par Jascha Sohl-Dickstein, aujourd’hui chercheur dans le groupe Brain de Google. Il y a sept ans, lorsque Sohl-Dickstein était postdoctorant au Neural Dynamics and Computation Lab, lui et le directeur du laboratoire, le neuroscientifique Surya Ganguli, Ph.D., « exploraient des idées en thermodynamique hors équilibre », explique Ganguli. « Ce travail a conduit à l’idée que l’on pourrait inverser le cours du temps dans un processus de diffusion qui transforme les données en bruit en formant un réseau de neurones, qui pourrait ensuite transformer le bruit en données », explique Ganguli.

Inspiré par le cerveau

Isaac Kauvar, Ph.D., chercheur postdoctoral interdisciplinaire du Wu Tsai Neurosciences Institute travaillant au Stanford Autonomous Agents Lab à l’intersection de l’IA, des neurosciences et de la psychologie, souligne deux analogies entre la manière dont DALL-E génère ses images et la créativité les artistes humains font le leur. La plus évidente est que DALL-E est construit autour d’une architecture logicielle connue sous le nom de « réseau de neurones » qui, dans le concept, sinon dans les détails, imite la composition du cerveau en neurones, chacun ayant des connexions avec de nombreux autres. Ces connexions peuvent être renforcées ou affaiblies au cours de l’apprentissage, formant ainsi des modèles significatifs d’associations.

De plus, « à un niveau élevé, la façon dont DALL-E construit des images à partir de son propre espace latent n’est pas entièrement différente de la façon dont les cerveaux humains pourraient stocker et identifier des concepts, puis les traduire en sorties », explique Kauvar. Ces concepts abstraits nous aident à lier, par exemple, le mot babouin à un éventail d’associations et d’images différentes – des fonds colorés, des enclos de zoo, la savane africaine.

Version « bande dessinée » de la créativité humaine ?

Le neuroscientifique, affilié à Wu Tsai Neuro et auteur, David Eagleman, Ph.D., convient que les modèles comme DALL-E ont au moins une chose en commun avec l’intelligence humaine : ils fonctionnent en « absorbant de nombreux exemples, puis en générant de nouvelles choses basées sur de les combiner et de les recombiner », dit-il. « Les créatifs absorbent également le monde, génèrent des remixes, puis créent de toutes nouvelles versions. »

Mais, en matière de créativité, dit Eagleman, « ce qui manque à ces générateurs d’images est au moins aussi important que ce qu’ils partagent avec nous. Autrement dit, ils n’ont aucun moyen de filtrer ce qui est bon, encore moins ce qui est profond ou profond. magnifique. »

Eagleman appelle la façon dont les générateurs d’images apprennent et produisent de l’art « une version cartoon » de la façon dont les humains font ces choses. D’une part, soutient-il, il ne suffit pas de créer de nouvelles choses. Pour être pleinement créatif, une personne – ou une machine créative – devrait être capable de filtrer ces nouvelles choses et de sélectionner les plus résonnantes et pertinentes en fonction de critères humains, dit-il. « DALL-E ne peut pas faire ça. Il a de la nouveauté, mais pas le filtrage, la sélectivité », dit-il. « Il faudrait qu’il apprenne ce que c’est que d’être une personne avant de pouvoir filtrer en fonction de critères humains, avant de savoir si ou pourquoi les humains apprécieraient un dessin particulier. »

« Ces IA sont si impressionnantes », dit Eagleman, « mais elles ne font pas ce que fait le cerveau humain. Pas du tout. Elles utilisent des techniques très différentes pour obtenir des résultats étrangement similaires et souvent merveilleux. Mais ce qui est le plus intéressant, c’est peut-être à quel point quelque chose de si différent d’un humain peut arriver à des résultats aussi impressionnants. »

Honorer le processus de création

Kauvar, qui est un artiste visuel, souligne une autre différence clé entre la façon dont DALL-E fonctionne et la façon dont beaucoup de gens le font. « Quand je dessine », dit-il, « c’est un processus itératif. Je ne sais généralement pas où je vais finir. Je commence par écrire quelque chose et cela inspire la prochaine itération, et cela inspire la prochaine un, et ainsi de suite. DALL-E, d’autre part, détermine ce qu’il faut dessiner, puis passe directement à la création de cette chose en quelques secondes. DALL-E peut produire rapidement de nombreuses variations, mais il repose sur un humain pour les évaluer ou les modifier. »

L’importance d’honorer le processus dans l’acte humain de création artistique est quelque chose que Michele Elam, Ph.D., professeur William Robertson Coe de sciences humaines et directeur associé de la faculté de l’Institut d’intelligence artificielle centrée sur l’homme, identifie également comme une différence clé entre la créativité d’un humain et celle d’une machine. Les artistes apprécient le processus créatif, le considérant comme un élément clé de l’acte de création et même essentiel au sens de l’œuvre elle-même, dit-elle.

« L’idée que quelque chose comme DALL-E pourrait ‘libérer votre créativité’ en rendant simplement plus rapide et plus simple l’obtention d’un produit utilisable suggère que les artistes sont accablés par la pensée, la réflexion, l’expérience, le soin et le temps qui vont dans leur travail, » elle dit. « Mais pour de nombreux artistes, le sens de l’œuvre est une expression de ces efforts, de ce processus, et non accessoire pour eux. »

Agir, ne pas penser

Le neuroscientifique informatique Manish Saggar, Ph.D., Wu Tsai Neuro et affilié à HAI et professeur adjoint de psychiatrie et de sciences du comportement, a étudié la créativité humaine et le cerveau pendant plus d’une décennie. Dans un article de 2017 dans Cortex cérébral, il a découvert qu’une qualité mesurable d’un cerveau dans un état hautement créatif est la désactivation simultanée de la partie préfrontale droite du cortex et la connectivité accrue entre de nombreuses régions disparates du cerveau. Cette connectivité accrue comprend la communication entre le cortex préfrontal et le cervelet qui, entre autres choses, dit Saggar, peut être considérée comme l’unité de traitement graphique du cerveau, ou GPU. « C’est comme si le CPU et ses inhibitions s’éteignaient, et que le GPU prenait en charge le travail créatif. » Dans la mesure où cela ressemble à un retrait du contrôle exécutif strict et à un passage à un processus plus distribué, basé sur l’image, cela peut être largement analogue à ce que fait DALL-E, dit Saggar.

L’équipe de Saggar a également constaté que la plupart des personnes extraordinairement créatives ont un fort penchant pour l’action. Ils ne pensent pas seulement (ou même principalement, au début) à ce qu’ils pourraient dessiner ; ils prennent simplement le stylo sur le papier et commencent à dessiner. « Pensez moins, faites plus » est un bon conseil induisant la créativité, dit Saggar.

De même, un modèle texte-image peut être si génératif peut-être parce qu’il n’essaie pas de forcer des attentes préconçues et d’appliquer des approches traditionnelles à un problème ; il s’agit simplement de rechercher des associations à motifs et de les essayer. DALL-E ne pense pas du tout… c’est seulement le cas.

Mais à un moment donné, soutient Eagleman, pour compléter le processus de création, il faut utiliser ce qu’il appelle « le filtre humain » pour identifier parmi toutes ces nouvelles choses les meilleures, puis, de temps en temps, continuer à travailler avec un favori. quelque chose de nouveau jusqu’à ce qu’il devienne aussi vraiment génial. Aussi surprenants et impressionnants que soient ces puissants générateurs de texte en image, ils ne sont pas encore près d’être des artistes dans ce sens pleinement créatif.

Lorsque nous avons interrogé le cousin aîné de DALL-E, GPT-3, sur les différences entre la créativité humaine et celle de l’IA, il a formulé la critique selon laquelle les humains ont au moins un filtre de sélection unique que les algorithmes n’ont pas : » Une manière importante dans laquelle les humains sont encore meilleurs à générer de nouvelles idées, c’est que les humains ont des émotions…. Les émotions aident à identifier quelles idées sont bonnes et lesquelles sont mauvaises. Elles donnent la motivation pour poursuivre certaines idées et pas d’autres.

Encore une expérience humaine

Comme le cerveau humain, DALL-E peut généraliser des idées ou des invites spécifiques à des réseaux d’association plus larges, ce qui lui permet de créer des images convaincantes basées sur son « expérience ». Et il peut également combiner des concepts de manière qui nous semble amusante ou créative. Nous lui avons demandé de mettre le babouin sur un canot sur l’océan, par exemple, et de le représenter à la manière de Georges Seurat ; il a créé un babouin contemplatif et solitaire à la dérive dans une mer pointilliste de points colorés.

Mais il y a quelques éléments essentiels à la créativité humaine qui manquent encore à DALL-E. D’une part, il n’y a aucune évaluation émotionnelle de ce qui rend une image importante, nouvelle, drôle ou significative. Peut-être lié à cela est que DALL-E n’a pas de processus artistique étendu. Pour les artistes humains, ce processus est central – essayer des choses, les évaluer, passer à la version suivante ou à l’idée suivante pour finalement découvrir ou se concentrer sur l’impulsion de l’artiste à créer l’art en premier lieu.

Pour ces raisons, la pleine créativité reste, pour l’instant du moins, du domaine de l’humain. C’est peut-être la raison pour laquelle les meilleurs produits de DALL-E reflètent un partenariat entre le générateur d’images algorithmique et la créativité, la sélectivité et la perspicacité d’un créateur humain ou d’un artiste qui l’utilise.

Fourni par l’Université de Stanford