Résoudre les problèmes de droit d'auteur et de rémunération dans l'IA générative

Des travaux récents menés par des chercheurs de l’Université Carnegie Mellon abordent les questions épineuses du droit d’auteur et de la compensation pour les modèles d’IA générative qui créent de nouvelles images.

Une équipe du Generative Intelligence Lab de la School of Computer Science a collaboré avec Adobe Research et l’Université de Californie à Berkeley pour développer deux algorithmes destinés à aider les modèles d’IA générative à franchir des étapes importantes sur ces questions. Le premier algorithme empêche ces modèles de générer du matériel protégé par le droit d’auteur, tandis que le second développe un moyen de rémunérer les créateurs humains lorsque les modèles utilisent leur travail pour générer une image.

Les modèles générateurs d’images tels que DALL-E 2, Midjourney et Stable Diffusion sont des outils puissants pour créer un contenu visuel réaliste à partir d’une simple description textuelle. En coulisses, ces modèles ont été formés sur des millions, voire des milliards d’images Internet, dont certaines pourraient être du matériel protégé par le droit d’auteur, des images sous licence et des photos personnelles.

« En tant que chercheurs dans ce domaine, nous avons la responsabilité d’aborder les problèmes sociaux qui en découlent », a déclaré Jun-Yan Zhu, professeur adjoint à l’Institut de robotique et directeur du laboratoire d’intelligence générative, qui s’efforce de répondre aux questions éthiques et enjeux sociaux liés à l’IA générative. « La création de technologies pour résoudre ces problèmes n’est qu’un aspect. Nous avons également besoin de davantage de travail sur la législation et sur la manière de réglementer l’IA. »

Les équipes de recherche présenteront deux articles lors de la Conférence internationale sur la vision par ordinateur 2023 en octobre prochain.

Le premier article, « Ablating Concepts in Text-to-Image Diffusion Models », aide les modèles génératifs d’IA à éviter de créer des images ou des styles spécifiques protégés par le droit d’auteur.

Par exemple, si vous demandez à un programme d’IA une peinture d’un artiste vivant, il générera une image qui ressemble beaucoup au style de cet artiste. L’algorithme proposé par les chercheurs de la CMU vise à éviter cela et fait en sorte que le modèle d’IA génère une peinture générique.

« Nous pouvons utiliser cette option lorsqu’un artiste souhaite se retirer d’un modèle d’IA à tout moment », a déclaré Nupur Kumari, titulaire d’un doctorat. étudiant en robotique et auteur principal de l’article. « Cela crée plus de contrôle et de liberté pour les personnes et les entreprises qui ne souhaitent pas que leurs images soient utilisées. »

Le deuxième article, « Évaluer l’attribution des données pour les modèles texte-image », développe une méthode de rémunération des personnes et des entreprises dont les données sont utilisées pour entraîner l’IA. L’algorithme tente de déterminer dans quelle mesure chaque image d’entraînement contribue à une image générée. Il pourrait être utilisé pour répartir équitablement les paiements entre les propriétaires d’images protégées par le droit d’auteur dans les bases de données d’IA.

Si vous demandez à un modèle d’IA de générer une image d’une aquarelle, par exemple, l’image résultante sera influencée par certains artistes qui travaillent dans l’aquarelle. Ce nouvel algorithme vise à quantifier la contribution de chaque artiste à cette nouvelle œuvre d’art synthétique.

« Nous travaillons pour répondre à la question : ‘Quel ensemble d’images a influencé l’image synthétisée ?' », a déclaré Sheng-Yu Wang, titulaire d’un doctorat. étudiant en robotique et auteur principal de l’article. « Nous pouvons potentiellement utiliser cet algorithme pour attribuer des crédits aux contributeurs de données. À terme, l’objectif est de rémunérer équitablement les propriétaires de données qui contribuent à la création d’IA génératives. »

Les nouveaux algorithmes en sont encore aux premiers stades de développement et les auteurs admettent que de nombreuses questions restent sans réponse. Il n’est pas clair si le contenu protégé par le droit d’auteur a été complètement supprimé ou simplement caché quelque part, par exemple, et des études plus approfondies sont nécessaires pour expliquer comment un algorithme d’attribution évalue l’influence de chaque image d’entraînement.

Malgré les questions restées sans réponse, les nouveaux algorithmes ouvrent la voie à la résolution des problèmes de droits d’auteur sur les plates-formes d’IA générative et constituent les premiers pas vers une indemnisation des personnes et des entreprises dont le travail contribue aux images d’IA.