Problèmes éthiques et juridiques soulevés par la documentation de formation ChatGPT

Crédit : domaine public Unsplash/CC0

Des chercheurs de l’Université de Californie à Berkeley affirment que ChatGPT a mémorisé un grand nombre d’œuvres protégées par le droit d’auteur et que l’inclusion de ces données peut introduire un biais dans les analyses menées avec les modèles OpenAI.

Kent Chang, Mackenzie Cramer, Sandeep Son et David Bamman de Berkeley ont rendu compte de leurs découvertes le 28 avril dans un article sur la arXiv serveur de prépublication intitulé « Parlez, mémoire : une archéologie des livres connus de ChatGPT/GPT-4 ».

Alors que la révélation soulève immédiatement des questions de propriété et de protection des droits d’auteur, les principaux intérêts des chercheurs sont la transparence et le potentiel de biais invisibles lorsque ceux qui s’appuient sur OpenAI restent dans l’ignorance des sources incluses et exclues des entrées.

« Nous constatons que les modèles OpenAI ont mémorisé une large collection de documents protégés par le droit d’auteur, et que le degré de mémorisation est lié à la fréquence à laquelle des passages de ces livres apparaissent sur le Web », ont déclaré les chercheurs.

« La capacité de ces modèles à mémoriser un ensemble inconnu de livres complique les évaluations de la validité des mesures pour l’analyse culturelle en contaminant les données de test », ont-ils averti.

Par exemple, les chercheurs ont noté que les livres de science-fiction et de fantasy dominent la liste des livres mémorisés, présentant un biais intégré sur la nature des réponses que ChatGPT peut fournir.

« La précision de ces modèles dépend fortement de la fréquence à laquelle un modèle a vu des informations dans les données de formation, remettant en question leur capacité à généraliser », ont-ils déclaré. De tels modèles « présentent un défi » lorsqu’il s’agit de valider les résultats puisque peu ou pas de détails sur les données utilisées pour former les modèles sont connus du public.

« Savoir sur quels livres un modèle a été formé est essentiel pour évaluer ces sources de biais », ont-ils déclaré.

« Notre travail ici a montré que les modèles OpenAI connaissent les livres proportionnellement à leur popularité sur le Web. »

Les œuvres détectées dans l’étude de Berkeley incluent « Harry Potter », « 1984 », « Le Seigneur des Anneaux », « Hunger Games », « Guide du voyageur galactique », « Fahrenheit 451 », « A Game of Thrones » et « Dune . »

Alors que ChatGPT s’est avéré très bien informé sur les œuvres du domaine public, des œuvres moins connues telles que Global Anglophone Literature – des lectures destinées au-delà des principales nations anglophones qui incluent l’Afrique, l’Asie et les Caraïbes – étaient largement inconnues. Les œuvres des lauréats du Black Book Interactive Project et de la Black Caucus Library Association ont également été négligées.

« Nous devrions réfléchir aux expériences narratives qui sont encodées dans ces modèles et à la manière dont cela influence d’autres comportements », a déclaré Bamman, l’un des chercheurs de Berkeley, dans un tweet récent. Il a ajouté que « les textes populaires ne sont probablement pas de bons baromètres de la performance des modèles [given] le penchant pour la science-fiction/fantasy. »

Les chercheurs ont déclaré que leurs conclusions plaidaient en faveur de l’utilisation de modèles ouverts qui divulguent des données de formation.

Pendant ce temps, des défis juridiques majeurs sont probables dans un proche avenir. Quelles sont les limites de « l’utilisation équitable » lors de la copie de texte ? Qui détient les droits d’auteur sur le texte généré en tout ou en partie par ChatGPT ? Qui prévaut lorsque la protection du droit d’auteur est demandée pour plusieurs productions similaires ou identiques par plusieurs parties ?

Et peut-être une question plus intéressante : le langage machine est-il protégé par le droit d’auteur ?

Certains se souviennent peut-être de la célèbre affaire « Macaque selfie » dans laquelle un singe s’est pris en photo avec du matériel laissé par un photographe professionnel. Le photographe a poursuivi les publications qui utilisaient les photos fascinantes, mais ils ont fait valoir que puisque le photographe n’avait pas pris les photos, il ne pouvait pas revendiquer la protection du droit d’auteur. PETA a soutenu que le singe devrait détenir le droit d’auteur.

Des années de batailles juridiques ont conduit à une décision de 2018 affirmant que les non-humains n’ont pas le pouvoir de revendiquer le droit d’auteur.

Cela s’étendra-t-il à la littérature ChatGPT ?