Meta a formé Llama avec des livres protégés par le droit d’auteur. Zuckerberg le savait et s’en fichait
Meta se vante souvent de la façon dont son modèle d’IA, Llama, est Open Source. Ce qu’il ne dit pas, c’est avec quel ensemble de données il a été formé. Une récente procédure judiciaire a permis de révéler des documents qui révèlent précisément certains détails de ce processus de formation. Et ils sont dérangeants.
Livres piratés pour entraîner le modèle. Dans l’affaire Kadrey c. Meta, qui inclut des auteurs à succès tels que Sarah Silverman et Ta-Nehisi Coates, Meta est accusée d’utiliser des œuvres protégées par le droit d’auteur pour entraîner ses modèles d’intelligence artificielle. Et les documents révélés dans ce procès révèlent que les plaignants semblent avoir raison.
Zuckerberg a dit oui à l’utilisation de livres piratés. Selon un témoignage dans l’affaire, Zuckerberg a approuvé que Meta utilise un ensemble de données appelé LibGen pour former les modèles Llama. Il l’a fait malgré le fait que les membres de son équipe et certains employés ne voyaient pas ces mesures d’un bon oeil. Selon les documents du procès, certains employés de Meta ont averti que l’utilisation de LibGen « pourrait saper la position de négociation de Meta auprès des régulateurs ».
Qu’est-ce que LibGen. LibGen (Library Genesis) se définissait comme un « agrégateur de liens », mais il s’agissait en réalité d’une gigantesque bibliothèque virtuelle qui donnait accès à des œuvres protégées par le droit d’auteur de groupes d’édition comme McGraw Hill ou Pearson Education. Il a été poursuivi à plusieurs reprises et condamné à des amendes de plusieurs dizaines de millions de dollars pour violation du droit d’auteur. En septembre 2024, ils ont reçu une amende de 30 millions de dollars, mais on ne sait pas qui est en charge de ladite « bibliothèque fantôme », ce qui rend très difficile pour les groupes d’édition de recevoir ces fonds.
Voracité illimitée. Déjà en avril 2024, le New York Times expliquait comment les entreprises technologiques étaient confrontées à cette faim vorace de données pour entraîner leurs modèles. À un moment donné, Meta a même embauché des personnes en Afrique pour regrouper des résumés de livres contenant du contenu protégé par le droit d’auteur « parce qu’il n’est pas possible de ne pas collecter ces données ». Dans cette enquête, Meta a accusé OpenAI d’utiliser du matériel protégé par le droit d’auteur sans autorisation, et ses dirigeants ont souligné qu’« il faudrait trop de temps pour négocier des licences avec les éditeurs, les artistes, les musiciens et l’industrie médiatique actuelle ». Les pratiques que les entreprises finissent par inclure, par exemple, l’utilisation de photos d’enfants pour former ces modèles.
Il ne semble pas qu’ils aient des droits d’auteur. Selon l’avocat des plaignants, un ingénieur Meta nommé Nikolay Bashlykov a écrit un programme pour supprimer les informations de droits d’auteur des livres électroniques qu’ils ont collectés auprès de LibGen pour entraîner le modèle. Ils ont également supprimé ces étiquettes des articles de revues scientifiques qu’ils utilisaient dans le processus de formation des lamas.
Et ils ont également aidé à distribuer ces œuvres. Dans Meta, il semble qu’ils aient non seulement utilisé ces travaux pour former LibGen, mais qu’ils soient également devenus une autre graine ou un nœud dans le réseau torrent avec lequel les travaux de LibGen étaient distribués, contribuant ainsi à leur diffusion. Cela élargit encore la violation du droit d’auteur, qui ne se limite pas à l’utilisation des œuvres pour la formation des lamas, mais sert également de mécanisme de diffusion.
un cas difficile. Même ainsi, pour le moment, il n’y a pas de décision claire sur ce qui s’est passé, et toutes ces accusations se concentrent sur les versions précédentes de Meta. En 2023, un tribunal avait déjà rejeté les accusations portées contre Meta pour une raison identique. L’entreprise de Mark Zuckerberg a alors indiqué qu’elle avait fait un usage équitable de ces données, mais cet argument pourrait ne pas fonctionner à cette occasion. En fait, le juge Vince Chhabria a refusé de retenir les données que Meta préférait voir omises du dossier.
Meta n’est (probablement) pas le seul. Bien que dans ce cas le procès soit contre Meta, il en existe de nombreux autres en vigueur qui, par exemple, opposent le New York Times à Microsoft et OpenAI. Ce dernier a en effet été accusé de la même chose que Meta par huit publications du groupe d’édition Alden Global en avril 2024, même s’il est vrai que ces derniers mois il a conclu des accords avec des groupes d’édition tels qu’Associated Press, Axel Springer, Prisa et Le Monde de concéder sous licence son contenu et ainsi pouvoir entraîner légitimement ses modèles d’IA avec ces données. Pendant ce temps, Google est clair sur le fait que pour entraîner ses modèles, il prendra tout ce que nous publions sur Internet, et Perplexity n’a cessé de faire quelque chose de similaire et de piller Internet pour entraîner ses modèles. Il n’est pas clair si cela inclut les œuvres protégées par le droit d’auteur, mais il semble peu probable qu’il n’y ait aucun cas de telles violations du droit d’auteur.
À Simseo | Les sociétés d’IA jouent avec le feu avec des contenus protégés par le droit d’auteur. Et la perplexité est sur le point de brûler