a entraîné son IA avec des copies de ses livres

a entraîné son IA avec des copies de ses livres

Le débat sur l’utilisation d’œuvres protégées par le droit d’auteur pour former des intelligences artificielles génératives est loin d’être terminé. C’est en effet l’un des grands axes du débat, puisque ces IA ont utilisé le contenu généré par les auteurs pour apprendre à générer du contenu similaire sans que ceux-ci n’y voient de compensation. Il s’agit d’une question délicate qui a fait l’objet de plusieurs plaintes. Aujourd'hui, il faut en ajouter un de plus à nul autre que l'American Anthropic, la société derrière Claude.

Que s'est-il passé ? Qu'un groupe de trois auteurs a poursuivi la société pour, selon la lettre, avoir bâti « une entreprise de plusieurs millions de dollars en volant des centaines de milliers de livres protégés par le droit d'auteur ». Les trois plaignants sont Andrea Bartz (journaliste et auteur de « We Were Never Here »), Charles Graeber (auteur de « The Angel of Death ») et Kirk Wallace Johnson (auteur de « The Feather Thief »).

Livres3. La raison du procès est qu'Anthropic a utilisé Books3 pour former son LLM, Claude AI. Books3 est un ensemble de données contenant 196 640 livres au format texte rédigés par des auteurs tels que Stephen King, Margaret Atwood et Zadie Smith. Autrement dit, il s’agit d’un ensemble de données qui inclut du contenu potentiellement protégé. La clé est ce qui s’est passé après sa création : il est devenu partie intégrante de The Pile.

La pile ? Il s'agit d'un énorme ensemble de données open source de 825 Go (gigioctet) de texte anglais créé par EleutherAI. Il est utilisé efficacement pour former des LLM. Il s'agit de quelques ensembles de données plus petits, notamment Books3 et Youtube Subtitles (oui, les sous-titres YouTube. Une enquête menée par Proof News et Wired suggère que NVIDIA, SalesForce, Anthropic et Apple les ont utilisés pour entraîner leurs modèles, en fait).

Anthropic a confirmé plus tôt ce mois-ci qu'elle avait utilisé The Pile pour former Claude et, bien que Books3 ait été supprimé de l'ensemble de données en août de l'année dernière, les auteurs déclarent dans le procès que s'il est vrai que Books3 a été retiré du « plus officiel ».  » de The Pile, la version originale est toujours disponible en ligne.

Books3 a cessé de faire partie de The Pile en août 2023, mais la version originale est toujours disponible en ligne

Quoi qu'il en soit, le procès indique qu'« Anthropic a téléchargé et reproduit des copies de The Pile et Books3, sachant que ces ensembles de données étaient constitués d'une collection de contenus protégés par le droit d'auteur provenant de sites Web pirates tels que Bibiliotik ». Ainsi, les auteurs souhaitent que le tribunal exige que l'entreprise paie des dommages-intérêts et oblige Anthropic à ne pas utiliser de contenu protégé par le droit d'auteur.

Ce n'est pas le premier. Et ce ne sera probablement pas non plus la dernière. Depuis l’arrivée de l’intelligence artificielle générative, les poursuites pour violation du droit d’auteur n’ont cessé de se produire. Cela explique pourquoi des entreprises comme OpenAI ont choisi une autre approche : le partenariat. La société derrière ChatGPT s'est associée à Associated Press, Axel Springer, Prisa et Le Monde, afin que vous puissiez utiliser leur contenu pour alimenter votre IA.

Siège du New York Times | Image : Flérent
Siège du New York Times | Image : Flérent

Siège du New York Times | Image : Flérent

Il a cependant encore une épine dans le pied : celle du New York Times, l'un des journaux les plus importants au monde, qui a poursuivi OpenAI et Microsoft pour l'utilisation de son contenu à la fin de l'année dernière. Les médias d'Alden Global Capital se sont également joints à nous, notamment le New York Daily News, le Chicago Tribune et The Orlando Sentinel, entre autres. Alden est le deuxième exploitant de journaux du pays.

Dans le cas d’Anthropic, ce procès n’est pas le premier auquel elle est confrontée. En octobre dernier, Universal Music Group (UMG), Concord Publishing et ABKCO Music & Records ont assigné en justice la firme pour avoir utilisé « les paroles de nombreuses compositions musicales » pour entraîner leur IA. Selon le procès, Claude est capable de générer des paroles identiques ou presque identiques à environ 500 chansons, dont certaines de Beyoncé ou des Rolling Stones.

Image de couverture | Anthropique édité par Simseo

À Simseo | Séville sera le premier siège européen de la transparence algorithmique : l'Espagne continue d'être leader dans ce domaine