Pour maintenir leur croissance, les entreprises d’IA recherchent des accords avec les géants de l’édition

Pour maintenir leur croissance, les entreprises d’IA recherchent des accords avec les géants de l’édition

Les géants de l’édition et les sociétés d’intelligence artificielle générative concluent des accords visant à la fois à protéger les droits d’auteur et à répondre aux besoins rapidement croissants du secteur de l’IA.

Le géant américain de l'édition HarperCollins a conclu un contrat avec une entreprise technologique anonyme lui permettant d'utiliser certains de ses livres pour entraîner ses modèles d'IA générative.

Dans une lettre consultée par l'AFP, l'entreprise technologique propose un paiement de 2 500 dollars par livre sélectionné pour former son soi-disant grand modèle de langage (LLM) pendant trois ans maximum.

Les modèles d’IA ont besoin d’énormes quantités de textes pour entraîner leur utilisation quotidienne du langage.

« HarperCollins a conclu un accord avec une société de technologie d'intelligence artificielle pour autoriser une utilisation limitée de certains titres de non-fiction pour la formation de modèles d'IA afin d'améliorer la qualité et les performances des modèles », a déclaré l'éditeur dans un communiqué.

Il a déclaré que l'accord avait « une portée limitée et des garde-fous clairs autour de la production de modèles qui respectent les droits d'auteur ».

Les auteurs « ont le choix d'adhérer à l'accord ou de laisser passer cette opportunité », ajoute le texte.

L'offre a reçu un accueil mitigé dans le monde de l'édition, avec des écrivains tels que Daniel Kibblesmith refusant sèchement.

« Je le ferais probablement pour un milliard de dollars. Je le ferais pour une somme d'argent qui ne nécessiterait plus de travail, puisque c'est le but ultime de cette technologie », a posté l'auteur sur le réseau social Bluesky. .

HarperCollins est l’un des plus grands éditeurs à parvenir à un tel accord, mais pas le premier.

L'éditeur scientifique américain Wiley a déclaré avoir autorisé « l'accès au contenu de livres universitaires et professionnels déjà publiés pour une utilisation spécifique dans la formation de modèles LLM » dans le cadre d'un contrat de 23 millions de dollars avec une « grande entreprise technologique » non identifiée.

Les accords soulignent la tension derrière les modèles d’IA, qui collectent d’énormes quantités de contenu sur le Web, créant ainsi un risque de violations généralisées des droits d’auteur.

« Une conversation plus large »

Giada Pistilli, responsable de l'éthique chez Hugging Face, une plateforme franco-américaine d'IA en libre accès, estime que ces accords constituent une avancée puisqu'ils impliquent des paiements aux éditeurs. Mais elle regrette qu'ils laissent peu de marge de négociation aux auteurs.

« Ce que nous allons voir, c'est un mécanisme d'accords bilatéraux entre les entreprises de nouvelles technologies et les éditeurs ou détenteurs de droits d'auteur, alors qu'à mon avis, nous avons besoin d'une conversation plus large qui inclut un peu plus les parties prenantes », a-t-elle déclaré.

Julien Chouraqui, directeur juridique du Syndicat français de l'édition (SNE), a déclaré que ces accords représentaient un « progrès ».

« Un accord signifie qu'il y a eu un dialogue et une volonté d'atteindre un équilibre entre l'utilisation des données sources, qui sont soumises au droit d'auteur et qui généreront de la valeur », a-t-il déclaré.

La presse s’organise également pour faire face aux défis posés par l’IA.

Fin 2023, le New York Times a poursuivi OpenAI, créateur de ChatGPT, ainsi que Microsoft, son principal investisseur, pour violation des protections des droits d'auteur. D'autres groupes de médias ont conclu des accords avec OpenAI.

Les entreprises technologiques n’ont peut-être pas d’autre choix que de payer pour améliorer leurs produits, d’autant plus qu’elles commencent à manquer de nouveaux matériaux pour alimenter leurs modèles.

« Sur le Web, vous trouvez beaucoup de copies licites et illicites, ainsi que de nombreuses copies piratées. Cela pose non seulement des problèmes juridiques, mais soulève également des questions sur la qualité des données », a déclaré Chouraqui du SNE.

« Si nous voulons développer un marché sur des bases vertueuses, nous devons impliquer tous les acteurs », a-t-il déclaré.