Existe-t-il un moyen de rémunérer les créateurs de contenu dont le travail est utilisé pour former l'IA ?  Oui, mais ce n'est pas infaillible

Existe-t-il un moyen de rémunérer les créateurs de contenu dont le travail est utilisé pour former l’IA ? Oui, mais ce n’est pas infaillible

Crédit : Shutterstock

L’imitation est-elle la forme la plus sincère de flatterie ou de vol ? Cela revient peut-être à l’imitateur.

Les systèmes d’intelligence artificielle texte-image tels que DALL-E 2, Midjourney et Stable Diffusion sont entraînés sur d’énormes quantités de données d’image provenant du Web. En conséquence, ils génèrent souvent des sorties qui ressemblent au travail et au style de vrais artistes.

Il est sûr de dire des artistes ne sont pas impressionnés. Pour compliquer davantage les choses, bien que le droit de la propriété intellectuelle protège contre le détournement d’œuvres d’art individuelles, cela ne s’étend pas à l’émulation du style d’une personne.

Il devient difficile pour les artistes de promouvoir leur travail en ligne sans contribuer de manière infinitésimale à la capacité créative de l’IA générative. Beaucoup se demandent maintenant s’il est possible de rémunérer les créatifs dont l’art est utilisé de cette manière.

Une approche du service de licence photo Shutterstock permet de résoudre le problème.

Ancien modèle de contributeur, rencontrez la vision par ordinateur

Les services de licence de contenu multimédia tels que Shutterstock prennent les contributions des photographes et des artistes et les mettent à la disposition de tiers pour obtenir une licence.

Dans ces cas, les intérêts commerciaux du donneur de licence, du licencié et du créateur sont simples. Les clients paient pour obtenir la licence d’une image, et une partie de ce paiement (dans Shutterstock’s cas 15 % à 40 %) reviennent à la création qui a fourni la propriété intellectuelle.

Les questions de propriété intellectuelle sont tranchées et sèches : si quelqu’un utilise une image Shutterstock sans licence, ou à des fins en dehors de ses termes, il s’agit d’une violation manifeste des droits du photographe ou de l’artiste.

Cependant, les conditions de service de Shutterstock lui permettent également de rechercher une nouvelle façon de générer des revenus à partir de la propriété intellectuelle. Le site de ses contributeurs actuels met l’accent sur vision par ordinateurqu’il définit comme : « une discipline scientifique qui cherche à développer des techniques pour aider les ordinateurs à « voir » et à comprendre le contenu d’images numériques telles que des photographies et des vidéos ».

Existe-t-il un moyen de rémunérer les créateurs de contenu dont le travail est utilisé pour former l'IA ?  Oui, mais ce n'est pas infaillible

Le processus LLM est un peu comme un étudiant en art impartial qui apprend les techniques et les genres en se promenant dans une galerie de millions de peintures sous-titrées. Pouvons-nous dire que n’importe quelle peinture individuelle a ajouté plus à leurs connaissances générales? Probablement pas. Crédit : Shutterstock AI

La vision par ordinateur n’est pas nouvelle. Avez-vous déjà dit à un site Web que vous n’êtes pas un robot et identifié du texte déformé ou des images de vélos ? Si oui, vous avez été activement formation AI-run algorithmes de vision par ordinateur.

Aujourd’hui, la vision par ordinateur permet à Shutterstock de créer ce qu’il appelle une « source éthique, totalement propre et extrêmement inclusive » Générateur d’images IA.

Qu’est-ce qui rend l’approche de Shutterstock « éthique » ?

Une immense quantité de travail est consacrée à la classification de millions d’images pour former les grands modèles de langage utilisés par les générateurs d’images AI. Mais des services tels que Shutterstock sont particulièrement bien placés pour le faire.

Shutterstock a accès à des images de haute qualité de certains deux millions de contributeurs, qui sont tous décrits avec un certain niveau de détail. C’est la recette parfaite pour former un grand modèle de langage.

Ces modèles sont essentiellement de vastes réseaux de neurones multidimensionnels. Le réseau est alimenté par des données de formation, qu’il utilise pour créer des points de données qui combinent des informations visuelles et conceptuelles. Plus il y a d’informations, plus le réseau peut créer et relier de points de données.

Cette distinction entre une collection d’images et une constellation de points de données abstraits est au cœur de la question de la rémunération des créatifs dont le travail est utilisé pour former l’IA générative.

Même dans le cas où un système a appris à associer une image bien précise avec une étiquette, il n’existe aucun moyen significatif de tracer une ligne claire entre cette image d’entraînement et les sorties. Nous ne pouvons pas vraiment voir ce que les systèmes mesurent ou comment ils « comprennent » les concepts qu’ils apprennent.

La solution de Shutterstock est de rémunérer chaque contributeur dont le travail est mise à disposition à un partenaire commercial pour la formation en vision par ordinateur. Il décrit la démarche sur son site :

« Nous avons créé un fonds de contributeurs Shutterstock, qui indemnisera directement les contributeurs de Shutterstock si leur propriété intellectuelle a été utilisée dans le développement de modèles générateurs d’IA, comme le modèle OpenAI, grâce à la licence des données de la bibliothèque de Shutterstock. De plus, Shutterstock continuera à rémunérer les contributeurs pour la future licence de contenu généré par l’IA via l’outil de génération de contenu Shutterstock AI. »

Existe-t-il un moyen de rémunérer les créateurs de contenu dont le travail est utilisé pour former l'IA ?  Oui, mais ce n'est pas infaillible

La section Ai-je été formé ? les résultats montrent une photo sous licence CC que j’ai téléchargée sur Flickr il y a environ une décennie. Auteur fourni

Problème résolu?

Le montant versé au Fonds des contributeurs de Shutterstock sera proportionnel à la valeur de l’accord d’ensemble de données conclu par Shutterstock. Mais, bien sûr, le fonds sera réparti entre une grande partie des actions de Shutterstock contributeurs.

Quelle que soit l’équation développée par Shutterstock pour déterminer la taille du fonds, il convient de rappeler que toute rémunération n’est pas la même que équitable compensation. Le modèle de Shutterstock ouvre la voie à de nouveaux débats sur la valeur et l’équité.

On peut soutenir que les débats les plus importants se concentreront sur la quantité de contributions d’individus spécifiques à la « connaissance » glanée par un réseau de neurones entraîné. Mais il n’y a pas (et il n’y aura peut-être jamais) de moyen de mesurer cela avec précision.

Pas de solution parfaite

Il existe, bien sûr, de nombreuses autres bibliothèques multimédias fournies par les utilisateurs sur Internet. Pour l’instant, Shutterstock est le plus ouvert sur ses relations avec les projets de vision par ordinateur, et ses conditions d’utilisation sont les plus directes pour aborder les questions éthiques.

Un autre grand acteur de l’IA, Stable Diffusion, utilise une base de données d’images open source appelée LAION-5B pour s’entraîner. Les créateurs de contenu peuvent utiliser un service appelé Ai-je été formé ? pour vérifier si leur travail a été inclus dans l’ensemble de données et s’en désinscrire (mais cela ne sera reflété que dans les futures versions de Stable Diffusion).

Une de mes photographies populaires sous licence CC d’une jeune fille en train de lire apparaît plusieurs fois dans la base de données. Mais cela ne me dérange pas, j’ai donc choisi de ne pas me retirer.

Shutterstock a promis pour donner aux contributeurs le choix de se retirer des futures offres d’ensembles de données.

Ses termes en font la première entreprise de ce type à aborder l’éthique de fournir des travaux de contributeurs pour la formation à l’IA générative (et autre utilisations liées à la vision par ordinateur). Il offre ce qui est peut-être la solution la plus simple à ce jour à un dilemme très difficile.

Le temps nous dira si les contributeurs eux-mêmes jugent cette approche juste. Le droit de la propriété intellectuelle peut également évoluer pour aider à établir les droits des contributeurs, il se pourrait donc que Shutterstock essaie de prendre une longueur d’avance.

Quoi qu’il en soit, nous pouvons nous attendre à plus de concessions avant que tout le monde ne soit satisfait.

Fourni par La Conversation