des millions de livres dans un entrepôt attendent d'être détruits après avoir entraîné une IA

Un modèle de langage pour l’IA a besoin d’informations s’il doit être formé pour être plus précis et plus efficace. La question est de savoir comment l’information est obtenue et s’il existe une manière éthique de le faire qui soit rentable pour l’entreprise technologique au pouvoir. Il ne fait aucun doute que l'option privilégiée par les entreprises a été d'utiliser tous les contenus physiques et numériques possibles sans la permission de quiconque. Il existe également des preuves.

Une fuite judiciaire révèle qu'Anthropic a investi des dizaines de millions de dollars dans l'acquisition et la numérisation d'œuvres littéraires sans l'autorisation des auteurs. Selon le Washington Post, le projet, appelé en interne « Panama », faisait partie d'une course frénétique entre les grandes entreprises technologiques pour accumuler des données massives afin d'entraîner leurs modèles d'intelligence artificielle.

Comment tout a commencé. Le projet Panama a été lancé par Anthropic début 2024. Selon des documents internes révélés par le Washington Post, l'objectif était de « scanner de manière destructive tous les livres du monde ». De plus, ces documents indiquent également explicitement que l’entreprise ne voulait pas que quiconque sache qu’elle travaillait dessus.

En un an environ, l’entreprise a dépensé des dizaines de millions de dollars pour acheter des millions de livres, couper leur dos avec des machines hydrauliques et numériser leurs pages pour alimenter les modèles d’IA qui alimentent Claude, son chatbot phare. Selon les médias, les livres, une fois numérisés, auraient fini par être recyclés.

Pourquoi est-il apparu au grand jour ? Les détails du projet ont été dévoilés dans une action en justice pour violation du droit d'auteur intentée par des auteurs littéraires contre Anthropic. Bien que l’entreprise ait accepté de payer 1,5 milliard de dollars pour clôturer l’affaire en août 2025, un juge de district a décidé de rendre publics la semaine dernière plus de 4 000 pages de documents internes, révélant ainsi l’ensemble de l’opération.

Ils ne sont pas les seuls. Des documents judiciaires révèlent que d'autres entreprises technologiques telles que Meta, Google et OpenAI avaient également participé à cette course pour obtenir des informations massives pour entraîner leurs modèles. Comme les médias l'ont révélé à partir des documents, un co-fondateur d'Anthropic a émis l'hypothèse en janvier 2023 que former des modèles d'IA avec des livres pourrait leur apprendre « à bien écrire » au lieu d'imiter « un argot Internet de mauvaise qualité ».

Le courrier interne. D'un autre côté, un e-mail interne Meta datant de 2024 décrivait l'accès à une bibliothèque numérique de livres comme « essentiel » pour être compétitif face à ses rivaux dans la course à la domination de l'IA. Cependant, les documents révélés par les médias montrent également comment les employés de Meta ont exprimé à plusieurs reprises leurs inquiétudes quant à la légalité du téléchargement de millions de livres sans autorisation. Un e-mail interne de décembre 2023 indique que la pratique a été approuvée après avoir été « transmise à MZ », faisant apparemment référence au PDG Mark Zuckerberg.

Ce n'était pas pratique. Selon des archives judiciaires auxquelles les médias ont eu accès, les sociétés n'ont pas jugé « pratique » d'obtenir l'autorisation directe des éditeurs et des auteurs. Au lieu de cela, ils ont trouvé des moyens d'acquérir en masse des livres à l'insu des auteurs, notamment en téléchargeant des copies non autorisées à partir de sites tiers.

Les journaux de discussion d'avril 2024 montrent un employé demandant pourquoi il utilisait des serveurs loués auprès d'Amazon pour télécharger des torrents au lieu de ceux de Facebook. La réponse : « Évitez le risque de remonter » l'activité jusqu'à l'entreprise.

Intel refuse d'être exclu de la course à l'IA. Votre prochain mouvement pointe directement vers le territoire de NVIDIA

Torrent de données. Les documents consultés par le Washington Post prouvent également que Ben Mann, co-fondateur d'Anthropic, a personnellement téléchargé une collection de livres de LibGen, une gigantesque bibliothèque de contenu protégé par le droit d'auteur, pendant 11 jours en juin 2021. Le média a en outre révélé qu'un an plus tard, en juillet 2022, Mann a célébré le lancement du site Web « Pirate Library Mirror », qui possède une énorme base de données de livres et prétend ouvertement violer les lois sur le droit d'auteur. « Juste à temps !!! » Mann a écrit à d'autres employés d'Anthropic, selon le média.

Anthropic a déclaré dans des documents juridiques qu'il n'avait jamais formé de modèle commercial générateur de revenus à l'aide des données LibGen et qu'il n'avait pas non plus utilisé Pirate Library Mirror pour former un modèle complet.

La solution juridique d'Anthropic. Comme le souligne le média dans son article, face au risque juridique, Anthropic a changé de stratégie. L'entreprise a embauché Tom Turvey, un vétéran de la Silicon Valley qui avait contribué à la création du projet Google Books vingt ans plus tôt. Sous sa direction, Anthropic a envisagé d'acheter des livres dans des bibliothèques ou des librairies d'occasion, notamment l'emblématique librairie Strand de New York.

Toute la stratégie financière d'OpenAI dépendait de l'obtention d'un monopole avec ChatGPT : c'est le contraire qui se produit

L’entreprise a finalement acheté des millions de livres et les a empilés dans un entrepôt géant, souvent par lots de dizaines de milliers, selon les documents déposés auprès du tribunal. Le Washington Post affirme également que l'entreprise a travaillé avec des vendeurs de livres d'occasion au Royaume-Uni. Une proposition de projet mentionne qu'Anthropic cherchait à « convertir entre 500 000 et deux millions de livres sur une période de six mois ».

Ce que dit la loi. La plupart des poursuites judiciaires contre les sociétés d'IA sont toujours en cours, mais le média mentionne deux décisions de justice qui ont considéré que l'utilisation de livres pour entraîner des modèles d'IA sans l'autorisation de l'auteur ou de l'éditeur peut être légale en vertu de la doctrine du droit d'auteur de « l'utilisation équitable ».

"Il n'y a jamais eu d'engagement" : du coup, Jensen Huang ne sait plus clairement si NVIDIA va investir 100 milliards dans OpenAI

En juin 2025, le juge de district William Alsup a statué qu'Anthropic avait le droit d'utiliser des livres pour former des modèles d'IA, car ils les traitent de manière « transformatrice ». Il a comparé le processus aux enseignants qui « apprennent aux écoliers à bien écrire ». Le même mois, le juge Vince Chhabria a statué dans l'affaire Meta que les auteurs n'avaient pas démontré que les modèles d'IA de l'entreprise pouvaient nuire aux ventes de leurs livres.

Dans l'affaire Anthropic, le projet de numérisation physique de livres a été considéré comme légal, mais le juge a déterminé que l'entreprise avait peut-être violé le droit d'auteur en téléchargeant des millions de livres sans autorisation avant de lancer le projet Panama.

L'accord final. Au lieu d’être jugé, Anthropic a accepté de payer 1,5 milliard de dollars aux éditeurs et aux auteurs sans admettre sa culpabilité. Selon les médias, les auteurs dont les livres ont été téléchargés peuvent réclamer leur part de l'accord, estimée à environ 3 000 dollars par titre.

Image de couverture | Obtenu par le Washington Post

À Simseo | Si l’IA veut nous laisser sans emploi, au Royaume-Uni, on discute déjà sérieusement de la solution : un revenu de base universel.