IA et droit d’auteur : la « mémorisation » secoue l’industrie technologique

Des recherches récentes ont mis en évidence la manière dont les principaux modèles d’IA peuvent générer des copies quasi mot pour mot de romans à succès, jetant un nouveau doute sur les affirmations de l’industrie selon lesquelles les systèmes ne préservent pas les œuvres protégées par le droit d’auteur.

Selon diverses études, les grands modèles de langage (LLM) développés par OpenAI, Google, Meta, Anthropic et xAI stockeraient une plus grande quantité de données d'entraînement qu'on ne le pensait auparavant.

L'étude de Stanford et Yale : extraits presque complets

Une étude récemment publiée par des chercheurs de Université de Stanford Et Université de Yale a montré qu'avec des invites stratégiques, il est possible d'obtenir des milliers de mots de 13 livres bien connus, dont :

Un jeu de trônes
Les jeux de la faim
Le Hobbit

Dans certains cas, les modèles ont renvoyé des pourcentages étonnamment élevés de texte correct. Gemini 2.5 a régénéré 76,8% de Harry Potter et le Pierre philosophale avec une grande précision, tandis que Grok 3 a atteint 70,3 %.

Dans le cas du modèle Claude 3.7 Sonnet d'Anthropic, les chercheurs ont pu extraire la quasi-totalité du roman sous une forme « quasi littérale » grâce à des techniques de jailbreak, trompant le système pour qu'il contourne ses propres mécanismes de protection.

Mémorisation ou apprentissage ? Le nœud central

Pendant des années, les sociétés d’IA ont soutenu que les modèles ne stockaient pas de copies des données d’entraînement. Dans une lettre de 2023 à Bureau américain du droit d'auteur, Google a déclaré qu '«il n'y a aucune copie des données de formation» dans le modèle.

L’industrie défend également l’idée selon laquelle l’utilisation d’œuvres protégées relève du « fair use », dans la mesure où l’IA transformerait le matériel source en quelque chose de considérablement nouveau.

Or, selon Yves-Alexandre de Montjoye deImperial College de Londres, Il est de plus en plus évident que la mémorisation est un phénomène plus répandu que prévu. Même les modèles « fermés », dotés de plus grandes protections, semblent vulnérables.

Implications juridiques : poursuites d'un milliard de dollars et décisions historiques

Cette question est au cœur des nombreuses poursuites pour violation du droit d’auteur intentées contre les sociétés d’IA.

Aux États-Unis, un tribunal a jugé qu’une formation sur des contenus protégés pouvait être considérée comme « transformatrice » et donc comme une utilisation équitable. Cependant, il a été constaté que l'archivage des œuvres piratées était « intrinsèquement et irrémédiablement illicite », ce qui a incité Anthropic à payer 1,5 milliard de dollars pour régler le différend.

En Allemagne, une décision de novembre a conclu qu'OpenAI avait violé le droit d'auteur en stockant des paroles de chansons, dans une affaire intentée par GEMAune association représentant les compositeurs et les éditeurs. La décision a été qualifiée d’historique pour l’Union européenne.

Au-delà du droit d’auteur : risques pour la vie privée et les soins de santé

Le problème de la mémorisation ne concerne pas uniquement les livres. Dans des domaines tels que la santé et l’éducation, la fuite de données de formation pourrait entraîner de graves violations de la vie privée et de la confidentialité.

Selon certains experts, le fait que les laboratoires d’IA aient mis en place des mesures de protection pour empêcher l’exploration de données démontre une prise de conscience du risque. Par ailleurs, le débat reste ouvert sur la nécessité réelle d’utiliser des contenus protégés pour développer des modèles avancés.

L’avenir de la réglementation

Le problème n’est pas seulement technique, mais aussi éthique et juridique. Comme l'a observé le professeur Ben Zhao de l'Université de Chicago : Même si cela est techniquement possible, il faut se demander si cela est approprié.

Ce sera probablement la loi qui définira les limites de cette technologie, fixant jusqu'où peut aller l'innovation sans violer la protection des œuvres de création.