Les images de style Ghibli-de style Ghibli-de Chatgpt soulèvent de nouveaux problèmes de droit d’auteur
Les médias sociaux ont récemment été inondés d’images qui semblaient appartenir à un film Studio Ghibli. Les selfies, les photos de famille et même les mèmes ont été réinventés avec la palette pastel douce caractéristique de la société d’animation japonaise fondée par Hayao Miyazaki.
Cela a suivi la dernière mise à jour d’Openai vers Chatgpt. La mise à jour a considérablement amélioré les capacités de génération d’images de Chatgpt, permettant aux utilisateurs de créer des images de style ghibli-convaincantes en quelques secondes. Il a été extrêmement populaire – si bien, en fait, que le système s’est écrasé en raison de la demande des utilisateurs.
Les systèmes génératifs de l’intelligence artificielle (IA) tels que Chatgpt sont mieux compris comme des «moteurs de style». Et ce que nous voyons maintenant, c’est que ces systèmes offrent aux utilisateurs plus de précision et de contrôle que jamais.
Mais cela soulève également des questions entièrement nouvelles sur le droit d’auteur et la propriété créative.
Comment le nouveau chatppt fait des images
Les programmes d’IA génératives fonctionnent en produisant des sorties en réponse aux invites utilisateur, y compris des invites pour créer une image.
Les générations précédentes de générateurs d’images AI ont utilisé des modèles de diffusion. Ces modèles affinent progressivement des données randonnées et bruyantes dans une image cohérente. Mais la dernière mise à jour de Chatgpt utilise ce que l’on appelle un « algorithme autorégressif ».
Cet algorithme traite les images plus comme un langage, les décomposant en «jetons». Tout comme Chatgpt prédit les mots les plus probables d’une phrase, il peut désormais prédire séparément différents éléments visuels dans une image.
Cette tokenisation permet à l’algorithme de mieux séparer certaines caractéristiques d’une image et leur relation avec les mots dans une invite. En conséquence, Chatgpt peut créer plus précisément des images à partir d’invites utilisateur précises que les générations précédentes de générateurs d’images. Il peut remplacer ou modifier des fonctionnalités spécifiques tout en préservant le reste de l’image, et il améliore la question de longue date de la génération de texte correct dans les images.
Un avantage particulièrement puissant de la génération d’images dans un modèle grand langage est la capacité de s’appuyer sur toutes les connaissances déjà codées dans le système. Cela signifie que les utilisateurs n’ont pas besoin de décrire tous les aspects d’une image dans des détails minutieux. Ils peuvent simplement se référer à des concepts tels que Studio Ghibli et l’IA comprend la référence.
La récente tendance du studio Ghibli a commencé avec Openai lui-même, avant de se propager parmi les ingénieurs logiciels de la Silicon Valley, puis même les gouvernements et les politiciens, y compris des utilisations apparemment improbables telles que la Maison Blanche créant une image ghiblifiée d’une femme qui pleure et le gouvernement indien promouvant le Premier ministre Narendra Modi Modi d’un « Nouveau Inde ».
Comprendre l’IA comme des «moteurs de style»
Les systèmes d’IA génératifs ne stockent pas d’informations dans aucun sens traditionnel. Au lieu de cela, ils codent le texte, les faits ou les fragments d’image en tant que motifs – ou «styles» – dans leurs réseaux de neurones.
Formées sur de grandes quantités de données, les modèles d’IA apprennent à reconnaître les modèles à plusieurs niveaux. Les couches de réseau inférieures peuvent capturer des fonctionnalités de base telles que les relations de mots ou les textures visuelles. Des couches plus élevées codent pour des concepts ou des éléments visuels plus complexes.
Cela signifie tout – objets, propriétés, genres d’écriture, voix professionnelles – se transforme en styles. Lorsque l’IA apprend le travail de Miyazaki, il ne stockait pas de véritables cadres de Ghibli (bien que les générateurs d’images puissent parfois produire des imitations étroites d’images d’entrée). Au lieu de cela, c’est codant pour « Ghibliz » comme un modèle mathématique – un style qui peut être appliqué à de nouvelles images.
La même chose se produit avec les bananes, les chats ou les e-mails d’entreprise. L’IA apprend la «banane», la «chat» ou le «courrier électronique d’entreprise» – des difficultés qui définissent ce qui fait de quelque chose de reconnaissable une banane, un chat ou une communication professionnelle.
L’encodage et le transfert de styles sont depuis longtemps un objectif express dans l’IA visuel. Nous avons maintenant un générateur d’images qui y parvient avec une échelle et un contrôle sans précédent.
Cette approche débloque des possibilités créatives remarquables à la fois sur le texte et les images. Si tout est un style, ces styles peuvent être librement combinés et transférés. C’est pourquoi nous appelons ces systèmes comme des «moteurs de style». Essayez de créer un fauteuil dans le style d’un chat ou de style elvish.
La controverse du droit d’auteur: lorsque les styles deviennent identités
Bien que la capacité de travailler avec les styles soit ce qui rend l’IA générative si puissant, elle est aussi au cœur d’une controverse croissante. Pour de nombreux artistes, il y a quelque chose de profondément troublant à voir leurs approches artistiques distinctives réduites à un autre « style » que n’importe qui peut appliquer avec une simple invite de texte.
Hayao Miyazaki n’a pas commenté publiquement la tendance récente des personnes utilisant le chatppt pour générer des images dans son style d’animation de renommée mondiale. Mais il a déjà critiqué l’IA.
Tout cela soulève également des questions entièrement nouvelles sur le droit d’auteur et la propriété créative.
Traditionnellement, la loi sur le droit d’auteur ne protège pas les styles – sur des expressions spécifiques. Vous ne pouvez pas protéger un genre musical tel que « Ska » ou un mouvement artistique tel que « l’impressionnisme ».
Cette limitation existe pour une bonne raison. Si quelqu’un pouvait monopoliser un style entier, cela étoufferait l’expression créative pour tout le monde.
Mais il y a une différence entre les styles généraux et les styles très distinctifs qui deviennent presque synonymes de l’identité de quelqu’un. Lorsqu’une IA peut générer un travail « dans le style de Greg Rutkowski » – un artiste polonais dont le nom aurait été utilisé dans plus de 93 000 invites dans la diffusion stable du générateur d’image de l’IA – elle menace potentiellement à la fois son gagne-pain et l’héritage artistique.
Certains créateurs ont déjà pris une action en justice.
Dans un cas déposé fin 2022, trois artistes ont formé une classe pour poursuivre plusieurs sociétés d’IA, faisant valoir que leurs générateurs d’images ont été formés sur leurs œuvres originales sans autorisation, et permettent désormais aux utilisateurs de générer des œuvres dérivées imitant leurs styles distinctifs.
Alors que la technologie évolue plus rapidement que la loi, le travail est en cours sur une nouvelle législation pour essayer d’équilibrer l’innovation technologique en protégeant les identités créatives des artistes.
Quel que soit le résultat, ces débats mettent en évidence la nature transformatrice des moteurs de style IA – et la nécessité de considérer à la fois leur potentiel créatif inexploité et les protections plus nuancées des styles artistiques distinctifs.