Les chatbots AI ont besoin de plus de livres pour apprendre. Ces bibliothèques ouvrent leurs piles

Tout ce qui a déjà dit sur Internet n'était que le début de l'enseignement de l'intelligence artificielle sur l'humanité. Les entreprises technologiques puisent maintenant dans un plus ancien référentiel de connaissances: les piles de bibliothèque.

Près d'un million de livres publiés dès le XVe siècle – et dans 254 langues – font partie d'une collection universitaire de Harvard publiée jeudi aux chercheurs de l'IA. Des trésons à venir de vieux journaux et de documents gouvernementaux détenus par la bibliothèque publique de Boston.

Catching Open the Vaults à des tomes sécaires pourrait être un bonanza de données pour les entreprises technologiques luttant contre des poursuites de romanciers vivants, d'artistes visuels et d'autres dont les œuvres créatives ont été récupérées sans leur consentement pour former des chatbots d'IA.

« C'est une décision prudente de commencer par les données du domaine public parce que c'est moins controversé en ce moment que le contenu qui est toujours sous le droit d'auteur », a déclaré Burton Davis, un adjoint adjoint de Microsoft.

Davis a déclaré que les bibliothèques détiennent également « des quantités importantes de données culturelles, historiques et linguistiques intéressantes » qui manquent au cours des dernières décennies de commentaires en ligne que les chatbots de l'IA ont surtout appris.

Soutenu par des « cadeaux sans restriction » de Microsoft et Chatgpt Maker Openai, l'initiative Institutional Data, basée à Harvard, travaille avec des bibliothèques du monde entier sur la façon de créer leurs collections historiques prêtes pour Ai d'une manière qui profite également aux bibliothèques et aux communautés qu'ils servent.

« Nous essayons de déplacer une partie de la puissance de ce moment actuel de l'IA dans ces institutions », a déclaré Aristana Scourtas, qui gère des recherches au laboratoire d'innovation des bibliothèques de la Harvard Law School. « Les bibliothécaires ont toujours été les gardiens des données et les gardiens de l'information. »

Les chatbots AI ont besoin de plus de livres pour apprendre. Ces bibliothèques ouvrent leurs piles

L'ensemble de données nouvellement publié de Harvard, Institutional Books 1.0, contient plus de 394 millions de pages de papier numérisées. L'une des œuvres antérieures provient des années 1400 – les pensées manuscrites d'un peintre coréen sur la culture des fleurs et des arbres. La plus grande concentration d'œuvres provient du XIXe siècle, sur des sujets tels que la littérature, la philosophie, le droit et l'agriculture, tous méticuleusement conservés et organisés par des générations de bibliothécaires.

Il promet d'être une aubaine pour les développeurs d'IA essayant d'améliorer la précision et la fiabilité de leurs systèmes.

« Une grande partie des données qui ont été utilisées dans la formation de l'IA ne proviennent pas de sources originales », a déclaré le directeur exécutif de l'initiative des données, Greg Leppert, qui est également technologue en chef du Berkman Klein Center pour Internet & Society de Harvard. Cette collection de livres remonte à la copie physique qui a été scannée par les institutions qui ont réellement collecté ces articles « , a-t-il déclaré.

Avant que Chatgpt ne déclenche une frénésie commerciale d'IA, la plupart des chercheurs de l'IA ne pensaient pas beaucoup à la provenance des passages de texte qu'ils ont tirés de Wikipedia, des forums de médias sociaux comme Reddit et parfois des référentiels profonds des livres piratés. Ils avaient juste besoin de beaucoup de ce que les informaticiens appellent des jetons – des unités de données, chacune peut représenter un morceau de mot.

La nouvelle collection de formation sur l'IA de Harvard compte environ 242 milliards de jetons, une quantité difficile à comprendre pour les humains, mais ce n'est toujours qu'une goutte de ce qui est introduit dans les systèmes d'IA les plus avancés. La société mère de Facebook Meta, par exemple, a déclaré que la dernière version de son modèle de grande langue AI avait été formée sur plus de 30 billions de jetons tirés du texte, des images et des vidéos.

Meta lutte également contre un procès de la comédienne Sarah Silverman et d'autres auteurs publiés qui accusent la compagnie de voler leurs livres des « bibliothèques Shadow » des œuvres piratées.

Maintenant, avec quelques réservations, les vraies bibliothèques se lèvent.

Openai, qui lutte également sur une série de poursuites en droit d'auteur, a fait don de 50 millions de dollars cette année à un groupe d'institutions de recherche, dont la bibliothèque Bodleian de l'Université d'Oxford, âgée de 400 ans, qui numérise des textes rares et utilise l'IA pour aider à les transcrire.

Lorsque la société a contacté la bibliothèque publique de Boston, l'une des plus grandes des États-Unis, la bibliothèque a clairement indiqué que toute information qu'elle a numérisée serait pour tout le monde, a déclaré Jessica Chapel, son chef des services numériques et en ligne.

« OpenAI avait cet intérêt pour des quantités massives de données de formation. Nous avons un intérêt pour des quantités massives d'objets numériques. C'est donc juste un cas que les choses s'alignent », a déclaré Chapel.

La numérisation est coûteuse. Ce fut un travail minutieux, par exemple, que la bibliothèque de Boston scanne et organise des dizaines de journaux en langue française de la Nouvelle-Angleterre qui ont été largement lus à la fin du 19e et au début du 20e siècle par des communautés d'immigrants canadiennes du Québec. Maintenant que un tel texte est utile comme données de formation, il aide les projets de banque que les bibliothécaires veulent faire de toute façon.

« Nous avons été très clairs que, » Hé, nous sommes une bibliothèque publique « », a déclaré Chapel. « Nos collections sont organisées pour un usage public, et tout ce que nous avons numérisé dans le cadre de ce projet sera rendu public. »

La collection de Harvard a déjà été numérisée à partir de 2006 pour un autre géant de la technologie, Google, dans son projet controversé pour créer une bibliothèque en ligne consultable de plus de 20 millions de livres.

Google a passé des années à relever les défis juridiques des auteurs à sa bibliothèque de livres en ligne, qui comprenait de nombreuses œuvres plus récentes et protégées par le droit d'auteur. Il a finalement été réglé en 2016 lorsque la Cour suprême des États-Unis a laissé des décisions de justice inférieures qui ont rejeté les demandes de violation du droit d'auteur.

Maintenant, pour la première fois, Google a travaillé avec Harvard pour récupérer les volumes du domaine public de Google Books et ouvrir la voie à leur libération aux développeurs d'IA. Les protections des droits d'auteur aux États-Unis durent généralement 95 ans, et plus longtemps pour les enregistrements sonores.

À quel point tout cela sera utile pour la prochaine génération d'outils d'IA reste à considérer comme les données sont partagées jeudi sur la plate-forme Face Hugging, qui héberge des ensembles de données et des modèles d'IA open source que tout le monde peut télécharger.

La collecte de livres est plus diversifiée linguistique que les sources de données d'IA typiques. Moins de la moitié des volumes sont en anglais, bien que les langues européennes dominent toujours, en particulier l'allemand, le français, l'italien, l'espagnol et le latin.

Une collection de livres imprégnée de pensée du 19e siècle pourrait également être « extrêmement critique » pour les efforts de l'industrie technologique pour construire des agents d'IA qui peuvent planifier et raisonner ainsi que pour les humains, a déclaré Leppert.

« Dans une université, vous avez beaucoup de pédagogie autour de ce que signifie raisonner », a déclaré Leppert. « Vous avez beaucoup d'informations scientifiques sur la façon d'exécuter des processus et comment exécuter des analyses. »

Dans le même temps, il y a aussi beaucoup de données obsolètes, des théories scientifiques et médicales démystifiées aux récits racistes.

« Lorsque vous avez affaire à un ensemble de données aussi important, il y a des problèmes délicats concernant le contenu et le langage nocifs », a déclaré Kristi Mukk, coordinatrice du laboratoire d'innovation de la bibliothèque de Harvard qui a déclaré que l'initiative essayait de fournir des conseils sur l'atténuation des risques d'utiliser les données, pour « les aider à prendre leurs propres décisions éclairées et à utiliser l'AI de manière responsable. »