L’IA générative pourrait laisser les utilisateurs payer le prix des violations des droits d’auteur

L’IA générative pourrait laisser les utilisateurs payer le prix des violations des droits d’auteur

L’intelligence artificielle générative a été saluée pour son potentiel à transformer la créativité, notamment en abaissant les barrières à la création de contenu. Si le potentiel créatif des outils d’IA générative a souvent été souligné, la popularité de ces outils pose des questions sur la propriété intellectuelle et la protection des droits d’auteur.

Les outils d'IA générative tels que ChatGPT sont alimentés par des modèles d'IA fondamentaux ou des modèles d'IA formés sur de grandes quantités de données. L'IA générative est formée sur des milliards de données extraites de textes ou d'images récupérées sur Internet.

L'IA générative utilise des méthodes d'apprentissage automatique très puissantes telles que l'apprentissage profond et l'apprentissage par transfert sur de vastes référentiels de données pour comprendre les relations entre ces éléments de données, par exemple quels mots ont tendance à suivre d'autres mots. Cela permet à l’IA générative d’effectuer un large éventail de tâches pouvant imiter la cognition et le raisonnement.

L’un des problèmes est que les résultats d’un outil d’IA peuvent être très similaires à des documents protégés par le droit d’auteur. Au-delà de la manière dont les modèles génératifs sont formés, le défi que pose l’utilisation généralisée de l’IA générative est de savoir comment les individus et les entreprises pourraient être tenus responsables lorsque les résultats de l’IA générative enfreignent la protection des droits d’auteur.

Lorsque les invites entraînent des violations des droits d'auteur

Des chercheurs et des journalistes ont évoqué la possibilité que, grâce à des stratégies d'incitation sélectives, les gens finissent par créer du texte, des images ou des vidéos qui violent la loi sur le droit d'auteur. En règle générale, les outils d’IA générative génèrent une image, un texte ou une vidéo mais ne fournissent aucun avertissement concernant une violation potentielle. Cela soulève la question de savoir comment garantir que les utilisateurs d’outils d’IA générative ne finissent pas, sans le savoir, enfreindre la protection du droit d’auteur.

L’argument juridique avancé par les sociétés d’IA générative est que l’IA formée sur des œuvres protégées par le droit d’auteur ne constitue pas une violation du droit d’auteur puisque ces modèles ne copient pas les données de formation ; ils sont plutôt conçus pour apprendre les associations entre les éléments des écrits et des images comme les mots et les pixels. Les sociétés d'IA, dont Stability AI, fabricant du générateur d'images Stable Diffusion, affirment que les images de sortie fournies en réponse à une invite de texte particulière ne correspondent probablement pas à une image spécifique dans les données d'entraînement.

Les constructeurs d'outils d'IA générative ont fait valoir que les invites ne reproduisent pas les données de formation, ce qui devrait les protéger contre les réclamations pour violation du droit d'auteur. Certaines études d’audit ont cependant montré que les utilisateurs finaux de l’IA générative peuvent émettre des invites entraînant des violations du droit d’auteur en produisant des œuvres qui ressemblent beaucoup à du contenu protégé par le droit d’auteur.

Pour établir une contrefaçon, il faut détecter une étroite ressemblance entre les éléments expressifs d'une œuvre stylistiquement similaire et l'expression originale d'œuvres particulières de cet artiste. Les chercheurs ont montré que des méthodes telles que les attaques par extraction de données de formation, qui impliquent des stratégies d'invite sélectives, et la mémorisation extractible, qui incite les systèmes d'IA générative à révéler des données de formation, peuvent récupérer des exemples de formation individuels allant des photographies d'individus aux logos d'entreprises.

Des études d'audit telles que celle menée par l'informaticien Gary Marcus et l'artiste Reid Southern fournissent plusieurs exemples où il peut y avoir peu d'ambiguïté quant à la mesure dans laquelle les modèles d'IA génératifs visuels produisent des images qui portent atteinte à la protection du droit d'auteur. Le New York Times a fourni une comparaison similaire d’images montrant comment les outils d’IA générative peuvent violer la protection des droits d’auteur.

Comment construire des garde-corps

Les juristes ont qualifié le défi de développer des garde-fous contre la violation du droit d'auteur dans les outils d'IA de « problème Snoopy ». Plus une œuvre protégée par le droit d’auteur protège une ressemblance, par exemple le personnage de dessin animé Snoopy, plus il est probable qu’un outil d’IA générative la copie plutôt qu’une image spécifique.

Les chercheurs en vision par ordinateur se demandent depuis longtemps comment détecter les violations du droit d'auteur, telles que les logos contrefaits ou les images protégées par des brevets. Les chercheurs ont également examiné comment la détection de logos peut aider à identifier les produits contrefaits. Ces méthodes peuvent être utiles pour détecter les violations du droit d’auteur. Des méthodes permettant d’établir la provenance et l’authenticité du contenu pourraient également être utiles.

En ce qui concerne la formation des modèles, les chercheurs en IA ont suggéré des méthodes permettant de faire en sorte que les modèles d’IA génératifs désapprennent les données protégées par le droit d’auteur. Certaines sociétés d'IA telles qu'Anthropic ont annoncé leur engagement à ne pas utiliser les données produites par leurs clients pour former des modèles avancés tels que le grand modèle de langage Claude d'Anthropic. Des méthodes de sécurité de l’IA telles que l’équipe rouge (tentatives de forcer les outils d’IA à se comporter mal) ou la garantie que le processus de formation du modèle réduit la similarité entre les résultats de l’IA générative et le matériel protégé par le droit d’auteur peuvent également être utiles.

Rôle de la réglementation

Les créateurs humains savent qu’il faut refuser les demandes de production de contenu qui viole le droit d’auteur. Les entreprises d’IA peuvent-elles intégrer des garde-fous similaires dans l’IA générative ?

Il n’existe aucune approche établie pour intégrer de tels garde-fous dans l’IA générative, et il n’existe pas non plus d’outils ou de bases de données publics que les utilisateurs peuvent consulter pour établir une violation du droit d’auteur. Même si de tels outils étaient disponibles, ils pourraient imposer une charge excessive aux utilisateurs et aux fournisseurs de contenu.

Étant donné qu'on ne peut pas s'attendre à ce que les utilisateurs naïfs apprennent et suivent les meilleures pratiques pour éviter de violer du matériel protégé par le droit d'auteur, les décideurs politiques et la réglementation ont un rôle à jouer. Une combinaison de directives juridiques et réglementaires peut être nécessaire pour garantir les meilleures pratiques en matière de sécurité des droits d'auteur.

Par exemple, les entreprises qui créent des modèles d’IA génératifs pourraient utiliser le filtrage ou restreindre les sorties du modèle pour limiter la violation du droit d’auteur. De même, une intervention réglementaire peut être nécessaire pour garantir que les constructeurs de modèles d'IA génératifs créent des ensembles de données et entraînent des modèles de manière à réduire le risque que la production de leurs produits viole les droits d'auteur des créateurs.

Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lisez l'article original.La conversation