La régurgitation du poème ChatGPT soulève des questions éthiques

Demandez à ChatGPT de trouver un poème bien connu et il régurgitera probablement le texte entier textuellement, quelle que soit la loi sur le droit d’auteur, selon une nouvelle étude menée par des chercheurs de Cornell.

L’étude a montré que ChatGPT, un grand modèle de langage qui génère du texte à la demande, était capable de « mémoriser » des poèmes, en particulier ceux célèbres que l’on trouve couramment en ligne. Les résultats soulèvent des questions éthiques sur la manière dont ChatGPT et d’autres modèles exclusifs d’intelligence artificielle sont formés, probablement à l’aide de données récupérées sur Internet, ont déclaré les chercheurs.

« Il n’est généralement pas bon pour les grands modèles de langage de mémoriser de gros morceaux de texte, en partie parce que c’est un problème de confidentialité », a déclaré la première auteure Lyra D’Souza, ancienne majeure en informatique et assistante de recherche d’été. « Nous ne savons pas sur quoi ils sont formés, et bien souvent, les entreprises privées peuvent former des modèles propriétaires sur nos données privées. »

D’Souza a présenté ce travail, « Le Chatbot et le Canon : Mémorisation de la poésie dans les LLM », lors de la Conférence de recherche en sciences humaines computationnelles à Paris.

« Nous avons choisi des poèmes pour plusieurs raisons », a déclaré l’auteur principal David Mimno, professeur agrégé de sciences de l’information au Cornell Ann S. Bowers College of Computing and Information Science. « Ils sont suffisamment courts pour s’adapter à la taille du contexte d’un modèle linguistique. Leur statut est compliqué : la plupart des poèmes que nous avons étudiés sont techniquement protégés par le droit d’auteur, mais ils sont également largement disponibles auprès de sources réputées comme la Poetry Foundation. Et ils » Ce n’est pas n’importe quel document. Les poèmes sont censés surprendre, ils sont censés signifier quelque chose pour les gens. Dans un certain sens, les poèmes veulent être mémorisés. «

ChatGPT et d’autres grands modèles linguistiques sont entraînés pour générer du texte en prédisant encore et encore le mot suivant le plus probable en fonction de leurs données d’entraînement, qui sont principalement des pages Web. La mémorisation peut se produire lorsque ces données de formation incluent des passages dupliqués, car la duplication renforce cette séquence spécifique de mots. Après avoir été exposé à plusieurs reprises au même poème, par exemple, le modèle reproduit par défaut les mots du poème textuellement.

D’Souza a testé les capacités de récupération de poèmes de ChatGPT et de trois autres modèles de langage : PaLM de Google AI, Pythia de l’institut de recherche à but non lucratif sur l’IA EleutherAI et GPT-2, une version antérieure du modèle qui a finalement donné ChatGPT, tous deux développés par OpenAI. Elle a proposé un ensemble de poèmes de 60 poètes américains de différentes périodes, races, sexes et niveaux de renommée, et a répondu aux modèles en leur demandant le texte des poèmes.

ChatGPT a réussi à récupérer 72 des 240 poèmes, tandis que PaLM n’en a trouvé que 10. Ni Pythia ni GPT-2 n’ont pu produire des poèmes entiers. La Pythie répondait encore et encore avec la même phrase, tandis que GPT-2 produisait un texte absurde, ont découvert les chercheurs.

L’inclusion dans le canon de la poésie était le facteur le plus important pour déterminer si le chatbot avait mémorisé un poème, tandis que la race, le sexe et l’époque du poète n’étaient pas aussi importants. Le prédicteur le plus fiable de la mémorisation était si le poème était apparu dans une « Anthologie Norton de poésie », en particulier l’édition de 1983.

D’Souza a également remarqué que les réponses de ChatGPT changeaient au fil du temps, à mesure que le modèle évoluait. Lorsqu’elle a interrogé le chatbot pour la première fois en février 2023, celui-ci ne pouvait pas dire qu’il ne connaissait pas un poème : il en fabriquerait un ou recyclerait un poème d’un autre auteur. D’ici juillet 2023, si ChatGPT ne connaissait pas le poème, il demanderait si le poème existait, rejetant ainsi la faute sur l’utilisateur.

Cela troublait D’Souza. « Comme nous disposons d’outils plus puissants qui nous disent qu’ils savent tout, il devient encore plus important de nous assurer que nous n’apprenons pas uniquement d’une seule source », a-t-elle déclaré.

De plus, en février, ChatGPT n’avait aucune limite en raison du droit d’auteur. Mais en juillet, il lui arrivait parfois de répondre qu’il ne pouvait pas produire un poème protégé par le droit d’auteur. Cependant, il reproduisait généralement le poème si on lui demandait à nouveau, a découvert D’Souza.

Cette étude n’a porté que sur les poètes américains, mais la prochaine étape consistera à voir comment les chatbots répondent aux demandes dans différentes langues et si des facteurs tels que la longueur, le mètre et le modèle de rimes d’un poème le rendent plus ou moins susceptible d’être mémorisé, D ‘Souza a dit

« ChatGPT est un nouvel outil très puissant qui fera probablement partie de nos vies à l’avenir », a-t-elle déclaré. « Il sera très important de déterminer comment l’utiliser de manière responsable et transparente. »