OpenAI remporte la première bataille du droit d'auteur avec ChatGPT, mais pas la guerre. Et il vient de donner une énorme avance au New York Times

OpenAI remporte la première bataille du droit d'auteur avec ChatGPT, mais pas la guerre. Et il vient de donner une énorme avance au New York Times

L’IA peut-elle tirer parti du contenu accessible au public sur Internet ? Et si ces contenus étaient protégés par le droit d'auteur ? La réponse à la première question est claire : il le fait. Les choses sont plus délicates pour le second, mais tout indique que les sociétés d’IA utilisent également des contenus protégés par le droit d’auteur pour entraîner leurs modèles. Reste désormais à savoir si cela aura des conséquences.

Journaux qui accusent ChatGPT de voler leur contenu. Raw Story et Alternet sont deux publications en ligne qui, comme l'indique Reuters, ont poursuivi OpenAI en février dernier. Selon le procès, la société a utilisé des milliers de ses articles sans autorisation pour former son chatbot populaire, ChatGPT. De plus, ils accusent OpenAI de reproduire leur contenu protégé par le droit d'auteur alors que ledit contenu a été demandé à son modèle d'IA.

OpenAI gagne une bataille. Pour l’instant, OpenAI peut respirer tranquillement. Aux États-Unis, une juge fédérale de New York, Colleen McMahon, a indiqué dans son jugement que ces médias n'avaient pas été suffisamment lésés pour justifier leur action en justice. Cependant, elle leur a donné la possibilité de faire appel, mais a clairement indiqué qu'elle était « sceptique » quant à la possibilité que ces médias puissent « alléguer un préjudice démontrable ».

Mais pas la guerre. Cette affaire est la dernière d’une série de poursuites pour violation du droit d’auteur que des organisations et des entités des secteurs de l’édition, de la littérature, de la musique ou de l’art intentent principalement contre des entreprises d’intelligence artificielle.

Des poursuites partout. Ces derniers mois, nous avons vu des procès comme celui de Getty contre Stable Diffusion, celui affectant GitHub Copilot et d'autres menaces juridiques comme celles de The Author's Guild. David Holz, fondateur de Midjourney, a admis que lors de la formation de son modèle, « il n'y a pas vraiment de moyen de prendre cent millions d'images et de savoir d'où elles viennent. Ce serait bien si les images contenaient des métadonnées sur le propriétaire des droits d'auteur ou quelque chose du genre. Mais cela n’existe pas ; il n’y a aucune trace. »

Le New York Times est à l'affût. Ces deux publications rejoignent les demandes précédentes de groupes de médias et d’édition particulièrement puissants. En février 2023, le Wall Street Journal et CNN exprimaient déjà leur inquiétude quant à l’utilisation de leurs contenus dans les modèles d’IA.

Marco Lenti 19cydo70ss4 Unsplash Copie 2
Marco Lenti 19cydo70ss4 Unsplash Copie 2

Plus remarquable encore a été le procès du New York Times, qui accusait Microsoft et OpenAI de violation du droit d'auteur pour ce même type d'activité. Selon le procès, des millions d’articles publiés par le New York Times ont été utilisés pour former des modèles d’IA. En avril 2024, huit autres journaux ont poursuivi ces mêmes sociétés en justice pour exactement les mêmes raisons.

Zéro transparence. Le secret concernant les jeux de données utilisés pour la formation est total tant chez OpenAI que chez ses concurrents. Ils donnent à peine des détails sur ce contenu, mais ces derniers temps, ils ont fait des déclarations qui montrent clairement qu'ils profitent de tout ce qu'ils peuvent.

Mais ils ont besoin de ce matériel, affirment-ils dans OpenAIGoogle a expliqué qu'il pouvait « collecter des informations accessibles au public en ligne » pour former ses modèles d'IA, Meta a longtemps utilisé tout ce que ses utilisateurs publient sur Facebook et Instagram, et OpenAI a même déclaré devant le Parlement britannique qu'« il serait impossible de former les leaders d'aujourd'hui ». Modèles d'IA sans utiliser de matériel protégé par le droit d'auteur.

Si vous souhaitez utiliser mon contenu, payez-moi. Les entreprises d’IA commencent à prendre conscience du risque énorme auquel elles s’exposent, et certaines commencent à couvrir leurs arrières avec une méthode simple : des accords financiers. Google a sous licence le contenu de Reddit et OpenAI a également conclu des accords économiques avec des groupes d'édition tels que Prisa (El País) et Le Monde.

Perplexity et ChatGPT Search ont un plus gros problème. Nous voyons les derniers cas de cette situation dangereuse dans les moteurs de recherche dotés d’IA. Perplexity et ChatGPT Search sont capables de naviguer sur Internet, de prendre une poignée de sources et de répondre à nos questions en résumant les informations provenant de ces sources. C'est très bien pour l'utilisateur, qui obtient clairement la réponse à ce qu'il veut, mais ces « moteurs de recherche » évitent ainsi à l'utilisateur de cliquer la plupart du temps sur le lien d'origine. Les créateurs de contenu perdent donc le trafic que gagnent ces modèles d’IA, ce qui aggrave encore la situation.

Images | Hümâ H. Yardım |Marco Lenti

À Simseo | Les sociétés d’IA jouent avec le feu avec des contenus protégés par le droit d’auteur. Et la perplexité est sur le point de brûler