Meta aurait utilisé des livres piratés pour former une IA - les tribunaux peuvent décider s'il s'agit de «recours équitable»

Les entreprises développant des modèles d’IA, tels que OpenAI et Meta, forment leurs systèmes sur d’énormes ensembles de données. Ceux-ci se composent de texte de journaux, de livres (souvent provenant de référentiels non autorisés), de publications académiques et de diverses sources Internet. Le matériel comprend des œuvres protégées par le droit d’auteur.

Le magazine Atlantic a récemment allégué Meta, société mère de Facebook et Instagram, avait utilisé Libgen, un référentiel de livres illégal, pour former son outil d’IA génératif. Créée vers 2008 par des scientifiques russes, Libgen accueille plus de 7,5 millions de livres et 81 millions de documents de recherche, ce qui en fait l’une des plus grandes bibliothèques en ligne de travail piraté dans le monde.

La pratique de la formation de l’IA sur le matériel protégé par le droit d’auteur a déclenché des débats juridiques intenses et a soulevé de graves préoccupations parmi les écrivains et les éditeurs, qui sont confrontés au risque que leur travail soit dévalué ou remplacé.

Alors que certaines sociétés, comme OpenAI, ont établi des partenariats officiels avec certains fournisseurs de contenu, de nombreux éditeurs et écrivains se sont opposés à ce que leur propriété intellectuelle soit utilisée sans consentement ni compensation financière.

L’auteur Tracey Spicer a décrit l’utilisation par Meta des livres protégés par le droit d’auteur comme «Techocapitalisme de pointe», tandis que Sophie Cunningham, présidente du conseil d’administration de l’Australian Society of Authors, a accusé la société de «traiter les écrivains avec mépris».

Meta est poursuivi aux États-Unis pour violation du droit d’auteur par un groupe d’auteurs, dont Michael Chabon, Ta-Nehisi Coates et la comédienne Sarah Silverman. Les documents judiciaires déposés en janvier allègent que le méta-PDG, Mark Zuckerberg, a approuvé l’utilisation de l’ensemble de données Libgen pour la formation des modèles d’IA de l’entreprise en sachant qu’il contenait du matériel piraté. Meta a refusé de commenter l’affaire judiciaire en cours.

Les batailles juridiques se concentrent sur une question fondamentale: le grattage des données de masse pour la formation en IA constitue-t-il une «utilisation équitable»?

Défis juridiques

Les enjeux sont particulièrement élevés, car les sociétés d’IA forment non seulement leurs modèles en utilisant des données accessibles au public, mais utilisent le contenu pour fournir des réponses Chatbot qui peuvent rivaliser avec les œuvres des créateurs d’origine.

Les entreprises d’IA défendent leurs données de grattage sur les motifs de l’innovation et de la «mise en service équitable» – une doctrine juridique qui, aux États-Unis, autorise «l’utilisation non autorisée des œuvres protégées par le droit d’auteur dans certaines circonstances». Ces circonstances comprennent la recherche, l’enseignement et les commentaires. Des dispositions similaires s’appliquent dans d’autres juridictions juridiques, dont l’Australie.

Les sociétés d’IA soutiennent que leur utilisation des travaux protégés par le droit d’auteur à des fins de formation est transformatrice. Mais lorsque l’IA peut reproduire du contenu qui imite étroitement le style d’un auteur ou régénère des parties substantielles du matériel protégé par le droit d’auteur, des questions légitimes se posent de savoir si cela constitue une contrefaçon.

Une affaire juridique historique dans cette bataille est le New York Times contre Openai et Microsoft. Lancé fin 2023, l’affaire est en cours. Le New York Times allègue la violation du droit d’auteur, affirmant que Openai et son partenaire Microsoft ont utilisé des millions de ses articles sans autorisation, pour former des systèmes d’IA.

Bien que la portée du procès ait été réduite aux demandes de base relatives à la violation de la dilution des droits d’auteur et de la marque, une récente décision de justice permettant à l’affaire de procéder au procès a été considérée comme une victoire pour le New York Times.

D’autres éditeurs de nouvelles, dont News Corp, ont également engagé une procédure judiciaire contre les sociétés de l’IA.

La préoccupation s’étend au-delà des éditeurs traditionnels et des organisations de presse à des créateurs individuels, qui font face à leurs moyens de subsistance. En 2023, un groupe d’auteurs – dont Jonathan Franzen, John Grisham et George RR Martin – a déposé un recours collectif, toujours non résolu, alléguant Openai a copié leurs œuvres sans autorisation ni paiement.

Implications

Ces défis juridiques et de nombreux autres auront des implications importantes pour l’avenir des industries de l’édition et des médias et pour les entreprises de l’IA.

Le problème est particulièrement alarmant, étant donné qu’en 2023, le revenu à temps plein moyen moyen pour un auteur aux États-Unis dépassait un peu plus de 20 000 $ USD. La situation est encore plus désastreuse en Australie, où les auteurs gagnent en moyenne 18 200 $ AUD par an.

En réponse à ces défis, l’Australian Society of Authors (ASA) a appelé le gouvernement australien à réglementer l’IA. Sa proposition est que les sociétés d’IA devraient être tenues d’obtenir l’autorisation avant d’utiliser des travaux protégés par le droit d’auteur et doivent fournir une compensation équitable aux écrivains qui accordent l’autorisation.

L’ASA a également appelé à un étiquetage clair du contenu qui est entièrement ou partiellement généré par l’AI, et la transparence concernant les œuvres protégées par le droit d’auteur pour la formation de l’IA et les objectifs de cette formation.

Si la formation de l’IA sur les œuvres protégées par le droit d’auteur est autorisée, quel modèle de rémunération est juste pour les créateurs originaux?

En 2024, HarperCollins a signé un accord permettant une utilisation limitée de titres de fond de fiction sélectionnés pour la formation d’IA. L’accord non exclusif de trois ans a affecté plus de 150 auteurs australiens. Cela leur a donné le choix de s’opposer pour 2 500 $ USD, a divisé 50/50 entre écrivain et éditeur.

Cependant, la Guild des auteurs soutient qu’une scission de 50/50 n’est pas juste et recommande que 75% devraient aller à l’auteur et seulement 25% à l’éditeur.

Réponses potentielles

Les éditeurs et les créateurs sont de plus en plus préoccupés par la perte de contrôle de la propriété intellectuelle. Les systèmes d’IA citent rarement des sources, diminuant la valeur de l’attribution. Si ces systèmes peuvent générer du contenu qui remplace les travaux publiés, cela a le potentiel de réduire la demande de contenu original.

Au fur et à mesure que le contenu généré par l’IA inonde le marché, distinguer et protéger les travaux originaux devient plus difficile. Amazon a déjà été submergé par du contenu généré par l’AI, y compris les imitations et les résumés de livres, vendus en livre électronique.

Les législateurs de diverses juridictions envisagent des mises à jour des lois nationales sur le droit d’auteur portant spécifiquement l’IA, qui vise à promouvoir l’innovation et la sauvegarde des droits. Mais les réponses divergent considérablement.

La loi sur l’intelligence artificielle de l’Union européenne de 2024 vise à équilibrer les intérêts des titulaires d’auteur de l’innovation dans le développement de l’IA. Les dispositions du droit d’auteur ont été ajoutées tard dans les négociations et sont considérées comme relativement faibles. Mais ils fournissent des outils supplémentaires aux détenteurs de droits d’auteur pour identifier les infractions potentielles et donner aux fournisseurs d’IA à usage général plus de certitude juridique, s’ils se conforment aux règles.

Tous les plans de réglementation de l’IA ont été explicitement rejetés par le vice-président américain JD Vance. En février, lors du Sommet de l’action de l’intelligence artificielle à Paris, Vance a décrit la « réglementation excessive » comme une « censure autoritaire » qui a sapé le développement de l’IA.

Cette position reflète l’approche américaine plus large de la réglementation de l’IA. Dans leurs soumissions au plan d’action de l’IA du gouvernement américain actuellement en cours de développement, Openai et Google soutiennent que les sociétés d’IA devraient être en mesure de former librement leurs modèles sur du matériel protégé par le droit d’auteur sous le principe de « Utilisation équitable », dans le cadre de « une stratégie de droit d’auteur qui favorise la liberté d’apprendre ».

Cette position soulève des préoccupations importantes pour les créateurs de contenu.

Deal ou pas deal?

En plus des cadres juridiques, divers modèles sont développés à l’échelle mondiale pour s’assurer que les créateurs et les éditeurs sont payés, tout en permettant aux entreprises d’IA d’utiliser les données.

Depuis la mi-2023, plusieurs éditeurs universitaires, dont Informa (la société mère de Taylor & Francis), Wiley et Oxford University Press, ont établi des accords de licence avec les sociétés d’IA.

D’autres éditeurs concluent des accords directs avec les sociétés d’IA, dans le sens similaire à HarperCollins. En Australie, Black Inc. a récemment demandé à ses auteurs de signer des accords d’opt-in permettant l’utilisation de leur travail à des fins de formation en IA.

Une variété de plates-formes de licence, telles que créées par les humains, ont émergé. Ceux-ci visent à faciliter l’utilisation juridique du matériel protégé par le droit d’auteur pour la formation de l’IA et indiquent clairement aux lecteurs lorsqu’un livre est écrit par des humains, et non généré par l’AI.

À ce jour, le gouvernement australien n’a promulgué aucune loi spécifique qui réglementerait directement l’IA. En septembre 2024, le gouvernement a publié un cadre volontaire composé de huit principes d’éthique de l’IA, qui appellent à la transparence, à la responsabilité et à l’équité dans les systèmes d’IA.

L’utilisation de travaux protégés par le droit d’auteur pour former des systèmes d’IA reste un territoire juridique contesté. Les développeurs d’IA et les créateurs ont des intérêts valables en jeu. Il est clair d’équilibrer l’innovation technologique avec des modèles durables pour la création de contenu original.

Trouver le bon équilibre entre ces intérêts nécessitera probablement une combinaison de précédents juridiques, de nouveaux modèles commerciaux et d’élaboration de politiques réfléchies.

Alors que les tribunaux commencent à régner sur ces affaires, nous pouvons voir des directives plus claires émerger sur ce qui constitue une utilisation équitable dans la formation d’IA et la création de contenu axée sur l’IA, et quels modèles de rémunération pourraient être appropriés. En fin de compte, l’avenir de la créativité humaine est en jeu.