Capture d'écran 2023 04 20 À 17 22 34

5 000 « tokens » de mon blog sont utilisés pour entraîner une IA. je n’ai pas donné mon autorisation

C’est formidable que ChatGPT réponde à vos questions comme celle-ci, que Copilot écrive du code pour vous par lui-même ou que Midjourney génère ces images sympas. Ce qui n’est pas si génial, c’est de ne pas savoir comment ces modèles d’intelligence artificielle ont été entraînés.

Des entreprises comme Meta (Appelle), OpenAI (ChatGPT, DALL-E), Stability AI (Stable Diffusion, StableLM) ou Google (Bard) ont entraîné ces modèles à l’aide de grands ensembles d’informations dont on ne sait pas grand-chose. Ongle Enquête du Washington Post donne plus d’indices dans l’un de ces cas, et j’ai trouvé une surprise : 5 000 articles de mon blog font partie de la formation.

Aucune des entreprises qui sont actuellement à la tête du domaine de l’intelligence artificielle générative ne donne beaucoup de données sur la façon dont elles ont formé leurs modèles. Et pourtant, il y a ceux qui ont essayé de démêler ces processus.

Analyse de 15 millions de sites Web

Chez WaPo, ils se sont concentrés sur l’analyse des Ensemble de données Google C4, qui a été utilisé pour former au moins deux modèles LLM représentatifs. Le premier, Google T5 lui-même, un peu moins connu mais comparable (et contemporain) au GPT-3. Le second, LLaMA, le modèle Facebook LLM dont nous avons parlé récemment.

Cet ensemble de données compte 15 millions de sites Web, dont ils ont pu catégoriser 10 millions : les 5 autres ne sont plus actifs sur Internet. Le plus important est Google Patents (curieux), tandis que le second est Wikipedia et le troisième, Scribd.

Il y a des surprises intéressantes : au numéro 190 dans ce classement de pertinence particulier dans ces sources se trouve b-ok.org, une plateforme qui a distribué illégalement des livres électroniques protégés par le droit d’auteur. Certains sites Web contenaient également des données sensibles telles que des bases de données électorales qui sont publiques mais dont l’utilisation dans ces cas pourrait évidemment éveiller les soupçons.

L’analyse offre rapidement des conclusions sur la façon dont parmi les principales sources présentes dans cet ensemble de données figurent celles des médias en ligne : le New York Times, The Guardian ou WaPo lui-même représentent une partie décente de cette formation, quelque chose qui – comme dans d’autres cas – est faisant protester certains de ces médias. « Si vous voulez utiliser mon contenu pour la formation, payez-moi », semblent-ils dire poursuites potentielles comme le Wall Street Journal.

Que fait mon blog là-bas ?

Mais à côté des médias d’une certaine entité, une autre source de formation (3,8% au total) sont les blogs. Un demi-million de blogs personnels sur des plateformes comme WordPress, Tumblr, Blogspot ou Live Journal. C’est justement là que j’ai trouvé la surprise : mon blog en faisait partie.

Pardon?

Dans cet article du Washington Post, il y a une dernière partie où l’on peut vérifier si un certain site Web fait partie de ceux utilisés dans l’ensemble de données Google C4. J’ai eu envie d’en essayer (Simseo n’y est pas, mais il y a quelques jetons Simseo Foto et Simseo Android), et au bout d’un moment je me suis dit « est-ce que mon blog sera là ? »

Hé bien oui. Était. Non pas que la présence ait été excessive (un jeton équivaut généralement à un mot ou, tout au plus, à une phrase), mais il est tout de même apparu avec une collection de 5 100 d’entre eux.

Pourquoi sont-ils là ? Bien sûr, je n’ai pas donné l’autorisation pour cela. Je publie mon blog, incognitosedepuis mai 2005, et même si au début je n’avais même pas pensé au type de licence dont disposait mon contenu, j’ai fini par le publier sous licence CC PAR SA —en bas du blog je l’indique clairement—. Ou ce qui revient au même : si vous me citez, donnez-moi une attribution (citez-moi, liez-moi). Google, à ma connaissance, ne l’a pas fait sur cet ensemble de données.

Copilot, ChatGPT et GPT-4 ont changé à jamais le monde de la programmation.  C'est ce que pensent les programmeurs

Qu’est-ce que cela signifie? Dans mon cas, bien sûr, une petite crise de colère. Cela ne me dérange pas si mon contenu est utilisé, mais j’apprécierais que vous m’en informiez et me liiez, comme l’indique cette licence.

Cette petite crise peut aller beaucoup plus loin dans le cas des médias à des fins commerciales et des entreprises, entités ou personnes qui n’ont pas donné leur autorisation explicite pour que leur contenu finisse par faire partie de ces ensembles de données.

C’est pourquoi on commence à voir des procès comme celui affectant GitHub Copilot dans le domaine de la programmation ou celui que les créateurs de Stable Diffusion ont également reçu pour leur formation avec Getty images.

Les choses pourraient probablement aller plus loin, surtout lorsque certaines entreprises reconnaissent ouvertement comment elles ont formé leurs plateformes en collectant des données sans discernement.

David Holz, fondateur de Midjourney, je l’ai fait en décembre dernier. Ils lui ont demandé s’il avait demandé la permission de former son modèle avec des images protégées par le droit d’auteur. Votre réponse?

« Non. Il n’y a pas vraiment de moyen de prendre cent millions d’images et de savoir d’où elles viennent. Ce serait bien si les images avaient des métadonnées intégrées sur le titulaire du droit d’auteur ou quelque chose comme ça. Mais ça n’existe pas, il n’y a aucun enregistrement. Il y a aucun moyen de trouver une image sur Internet, de la retracer automatiquement jusqu’à son propriétaire et de faire quelque chose pour l’authentifier.

La déclaration est certes dangereuse pour Holz, mais elle révèle un vrai problème – dans de nombreux cas, la traçabilité des images est complexe – et un autre potentiel. Une des demandes et plus de demandes aux créateurs de ces modèles.

Les jeux de données à l’ère de l’intelligence artificielle

OpenAI a donné quelques détails sur le processus de formation de son modèle LLM en 2020, lorsqu’il a montré l’étude ce qui donnerait lieu à GPT-3 (et plus tard, à ChatGPT). Wikipédia, par exemple, n’était qu’une petite partie de cette formation : il en représentait 3 %. Il y avait un grand « corpus » avec deux groupes de livres (Books1, Books2) représentant 16% entre eux, mais les grands ensembles de données provenaient de textes extraits du Web. Quels livres comprend ce « corpus » ? Elles sont censées appartenir au domaine public, mais la chose n’est pas tout à fait sûre. Il y a ceux qui ont essayé de le découvrir, et ont fini par créer leur propre corpus livres nommés3.

Capture d'écran 2023 04 20 Au 16 00 33

Source : ArXiv.

comme ils l’ont expliqué en grégoréite, l’un d’eux, WebText2, est le texte de la page Web qui provient de tous les liens sortants Reddit provenant de messages avec plus de trois votes positifs. Ce texte représentait déjà 22 % de l’ensemble de données d’entraînement, mais son poids dans l’entraînement (plus de détails sont dans la publication qu’OpenAI a fait en 2019) est par exemple beaucoup plus large que celle de Common Crawl, et elle n’est qu’inférieure à celle de Wikipédia.

L’autre, presque trois fois plus grande, s’appelait crawl communqui contient des pétaoctets de données collecté après avoir crawlé le web depuis 2008. Dans ces données il y a du contenu de pages web, mais aussi des métadonnées et des extraits de textes qui dans certains cas sont légèrement filtrés. Il y a des images, bien que les chatbots les ignorent, et essentiellement ce que fait Common Crawl a un sens pratique lorsque nous accédons Archives Internetla ressource inestimable qui (entre autres) vous permet d’accéder à des sites Web à différents moments dans le passé.

Jeux de données

Source : Architecte de la vie

Il y a eu d’autres analystes qui ont essayé de démêler quelles données font partie de ces grands ensembles de données. Dans VieArchitech Alan Thompson a publié une étude complète décomposant les ensembles de données de divers modèles et a même analysé quelles sont les grandes sources de chacun de ces grands ensembles de données.

Jeux de données

Source : Architecte de la vie.

Dans cette étude, par exemple, le rôle des brevets que Google stocke dans ce service s’est démarqué, et cela représentait pas moins de 0,48% de Common Crawl. Cela semble être une petite chose, mais compte tenu du fait que nous ne parlons que de brevets, le nombre est stupéfiant. Des médias tels que le New York Times, le Los Angeles Times ou The Guardian représentaient à peine 0,06 % de ce même ensemble de données.

la pile

Il y eut aussi un bombardement de La pile, un autre des jeux de données « à la mode » —il a été utilisé, par exemple, dans le récent StableLM—. Il dispose de 800 Go de données et a été « durci » précisément pour alimenter ces modèles d’intelligence artificielle.

Il y a plusieurs conclusions dans ces études. L’un d’eux est que le corpus consacré aux livres est minuscule, estimé à 1% de tous les livres publiés (et en fait, seulement des parties d’entre eux). Une autre est que l’anglais est absolument dominant dans ces ensembles de données, ce qui est logique si l’on tient compte du fait que la lingua franca d’Internet est précisément la langue saxonne.

Il est clair que ces ensembles de données sont énormes mais imparfaits, et il est probable que, compte tenu de l’explosion que nous vivons dans ce domaine, il y aura beaucoup de travaux futurs sur la façon précise dont ces modèles sont formés et, surtout , quelles données sont utilisées pour les former.

Le sentiment est que nous sommes à une époque où la quantité prime sur la qualité, et ce dont nous avons justement besoin, c’est que la qualité commence à peser sur la quantité.

Image : Javier Pastor avec Bing Image Creator

À Simseo | OpenAI a utilisé des millions de textes pour former ChatGPT. Le problème est que beaucoup d’entre eux sont protégés par le droit d’auteur.