Anthropic évite un processus Capestro: parvenu un accord historique avec des millions d'auteurs

La startup d'intelligence artificielle anthropique a l'intention de mettre fin au long litige juridique avec des auteurs tels que Andrea Bartz, Charles Graeber et Kirk Wallace Johnson, après avoir été accusé d'avoir utilisé des millions de livres – même pris par des bibliothèques « Shadow » telles que Libgen – pour former ses modèles, sans autorisation ni compensation.

En juin, le juge William Alsup a reconnu que l'utilisation des textes pouvait être considérée usage équitablemais l'achat de livres pour former une « bibliothèque centrale » de matériaux piratés a débloqué la possibilité de procéder pour la violation du droit d'auteur.

Évitez un énorme risque financier

Les enjeux étaient très élevés: avec environ 7 millions d'œuvres impliquées, les demandes de dommages par le piratage auraient pu se traduire en chiffres vertigineux, dépassant les milliers de milliards de dollars, avec des pics allant jusqu'à 150 000 $ par travail en cas d'infraction souhaitée. Cette exposition financière a incité Anthropic à chercher une issue avant le procès prévu en décembre.

La startup d'intelligence artificielle a l'intention de fermer un recours collectif milliardaire avec les auteurs américains, évitant un processus qui aurait pu submerger l'ensemble du secteur. L'accord marque un précédent important dans la relation entre l'innovation technologique, le droit d'auteur et la gouvernance mondiale de l'IA.

L'accord conclu

Le négociation de plaidoyer a été officialisé par un accord préliminaire, appelé « historique » par l'avocat des auteurs, Justin Nelson, qui a souligné comment tous les membres du recours collectif en bénéficieront. Le procédure de plaidoyer devrait être visé dans les premiers jours de septembre, probablement entre 3 et 5 comme un délai pour la demande d'approbation préliminaire du tribunal.

L'accord conclu par Anthropic n'a pas la saveur d'une victoire, mais plutôt une rupture stratégique d'une guerre juridique pour redéfinir les frontières entre l'utilisation équitable et l'exploitation masquée.

Les implications pour l'ensemble du secteur AI

Bien que la négociation de plaidoyer ne constitue pas un précédent juridique contraignant, il est destiné à influencer les futurs différends entre l'IA et les sociétés de créateurs, ce qui rend les critères de collecte de données pour les modèles de formation plus stricts.

Ce n'est qu'un des nombreux cas en cours: par exemple, Universal Music Group et d'autres éditeurs musicaux portent également anthropic en justice pour les violations présumées sur le devant des paroles des chansons.

Un accord et non une fermeture réglementaire

Les auteurs pourront se vanter d'un résultat significatif: non seulement la compensation, mais aussi une reconnaissance de la responsabilité. Cependant, les grandes questions sont ouvertes sur les méthodes de formation de l'IA et sur le droit d'auteur, des problèmes qui nécessiteront des solutions réglementaires et techniques plus robustes.

Perspectives:

Septembre: en attente de la confirmation judiciaire de la négociation de plaidoyer.
Développements futurs: surveillance des causes similaires en cours, réglementations émergentes.
SECTEUR AI: Augmentation probable de la transparence et des accords préventifs avec les propriétaires de droits pour éviter les litiges à l'avenir.

Un secteur sous accusation

La négociation sur le plaidoyer d'Anthropic ne ferme pas le débat, mais elle la relance: d'autres géants de l'IA se sont également retrouvés dans les vues. Les auteurs, les journalistes, les musiciens et les éditeurs affirment que leurs œuvres ont été utilisées pour former des modèles sans consentement ni compensation.

OpenII est accusé par Le New York Times Et par d'autres éditeurs pour avoir exploité des articles journalistiques pour former Chatgpt.
Meta est en essai pour avoir inclus des millions de messages et de textes sur un ensemble de données tels que Livres3.
Microsoft et Github ont dû faire face aux litiges sur le code utilisé pour s'entraîner Copilote.
Google a été mentionné pour l'ensemble de données C4qui contiendrait des œuvres protégées par le droit d'auteur collecté par les sites Web sans autorisation.

Le cœur du débat: quelle est la «fibre utilisation»?

Le concept clé est l'utilisation équitable, un principe de la loi américaine qui permet l'utilisation limitée des œuvres protégées sans autorisation, à des fins telles que la critique, l'enseignement ou la recherche. Les entreprises technologiques soutiennent que la formation des modèles se replie dans cette exception, car elle ne reproduit pas directement les textes mais «apprend» les modèles.

Les juges commencent cependant à distinguer:

utiliser abstrait des textes pourraient tomber dans le bon usage;
Mais la découverte massive et non autorisée de millions d'œuvres, souvent par des sources de pirates, risque de se configurer comme une violation directe du droit d'auteur.

Le cas anthropique a rendu cette différence évidente: former un modèle peut être « juste », mais créer une bibliothèque de livres électroniques piratée.

Risques économiques sans précédent

Les chiffres en jeu sont colossaux. Les lois sur les États-Unis influencent jusqu'à 150 000 $ pour chaque travail en cas de violation intentionnelle. Avec un ensemble de données de millions de titres, le compte théorique dépasse facilement le milliard de dollars.

Cette perspective a deux effets immédiats:

Il pousse les entreprises à négocier des accords avant d'arriver en classe;
Il ouvre la route vers un nouveau marché sous licence collective pour former les modèles d'IA, similaires à celui déjà existant pour la musique et le cinéma.

Les scénarios anthropiques et possibles précédents

L'accord n'établit pas de principe juridique contraignant, mais il pourrait devenir une publicité précédente: à l'avenir, les startups et les grands techniciens pourraient opter pour des accords préventifs avec les auteurs et les éditeurs.

Pour les écrivains et les musiciens, cependant, une saison de reconnaissance et de monétisation s'ouvre: le secteur créatif a désormais des outils concrètes pour demander une compensation.

Vers un nouveau règlement

Le vide réglementaire est le véritable affrontement. Aux États-Unis, le Congrès évalue les propositions pour clarifier ce qui fait partie de la usage équitabletandis qu'en Europe, le débat est lié à la loi, qui prévoit des obligations de transparence sur l'ensemble de données.

La direction semble claire: une plus grande traçabilité, des accords de licence et peut-être un avenir dans lequel les modèles paieront la «royauté» aux créateurs, comme cela se produit dans les plateformes de streaming.