Les générateurs de texte peuvent plagier au-delà du « copier-coller »
Les étudiants voudront peut-être réfléchir à deux fois avant d’utiliser un chatbot pour terminer leur prochain devoir. Les modèles de langage qui génèrent du texte en réponse aux invites de l’utilisateur plagient le contenu de plusieurs façons, selon une équipe de recherche dirigée par l’État de Penn qui a mené la première étude pour examiner directement le phénomène.
« Le plagiat a différentes saveurs », a déclaré Dongwon Lee, professeur de sciences et technologies de l’information à Penn State. « Nous voulions voir si les modèles de langage non seulement copient et collent, mais recourent à des formes plus sophistiquées de plagiat sans s’en rendre compte. »
Les chercheurs se sont concentrés sur l’identification de trois formes de plagiat : textuellement, ou copier et coller directement du contenu ; paraphraser ou reformuler et restructurer le contenu sans citer la source originale ; et idée, ou en utilisant l’idée principale d’un texte sans attribution appropriée. Ils ont construit un pipeline pour la détection automatisée du plagiat et l’ont testé par rapport au GPT-2 d’OpenAI, car les données de formation du modèle linguistique sont disponibles en ligne, ce qui permet aux chercheurs de comparer les textes générés aux 8 millions de documents utilisés pour pré-entraîner GPT-2.
Les scientifiques ont utilisé 210 000 textes générés pour tester le plagiat dans des modèles de langage pré-formés et des modèles de langage affinés, ou des modèles formés davantage pour se concentrer sur des domaines thématiques spécifiques. Dans ce cas, l’équipe a affiné trois modèles de langage pour se concentrer sur les documents scientifiques, les articles universitaires liés au COVID-19 et les revendications de brevet. Ils ont utilisé un moteur de recherche open source pour récupérer les 10 documents de formation les plus similaires à chaque texte généré et ont modifié un algorithme d’alignement de texte existant pour mieux détecter les cas de plagiat textuel, paraphrase et d’idée.
L’équipe a constaté que les modèles linguistiques commettaient les trois types de plagiat et que plus l’ensemble de données et les paramètres utilisés pour former le modèle étaient volumineux, plus le plagiat était fréquent. Ils ont également noté que des modèles de langage affinés réduisaient le plagiat textuel, mais augmentaient les cas de paraphrase et de plagiat d’idées. En outre, ils ont identifié des exemples du modèle linguistique exposant les informations privées des individus à travers les trois formes de plagiat. Les chercheurs vont présenter leurs découvertes au Webconférence ACM 2023qui se déroule du 30 avril au 4 mai à Austin, au Texas.
« Les gens recherchent de grands modèles de langage parce que plus le modèle est grand, plus les capacités de génération augmentent », a déclaré l’auteur principal Jooyoung Lee, doctorant au Collège des sciences et technologies de l’information de Penn State. « En même temps, ils compromettent l’originalité et la créativité du contenu du corpus de formation. C’est un constat important. »
L’étude souligne la nécessité de poursuivre les recherches sur les générateurs de textes et les questions éthiques et philosophiques qu’ils posent, selon les chercheurs.
« Même si le résultat peut être attrayant et que les modèles de langage peuvent être amusants à utiliser et sembler productifs pour certaines tâches, cela ne signifie pas qu’ils sont pratiques », a déclaré Thai Le, professeur adjoint d’informatique et de sciences de l’information à l’Université du Mississippi. qui a commencé à travailler sur le projet en tant que doctorant à Penn State. « En pratique, nous devons nous occuper des problèmes d’éthique et de droit d’auteur que posent les générateurs de texte. »
Bien que les résultats de l’étude ne s’appliquent qu’au GPT-2, le processus de détection automatique du plagiat que les chercheurs ont établi peut être appliqué à des modèles de langage plus récents comme ChatGPT pour déterminer si et à quelle fréquence ces modèles plagient le contenu de la formation. Cependant, les tests de plagiat dépendent des développeurs qui rendent les données de formation accessibles au public, ont déclaré les chercheurs.
L’étude actuelle peut aider les chercheurs en IA à construire des modèles de langage plus robustes, fiables et responsables à l’avenir, selon les scientifiques. Pour l’instant, ils exhortent les individus à faire preuve de prudence lors de l’utilisation de générateurs de texte.
« Les chercheurs et les scientifiques de l’IA étudient comment rendre les modèles de langage meilleurs et plus robustes, tandis que de nombreuses personnes utilisent des modèles de langage dans leur vie quotidienne pour diverses tâches de productivité », a déclaré Jinghui Chen, professeur adjoint de sciences et technologies de l’information à Penn State. « Bien que tirer parti des modèles de langage en tant que moteur de recherche ou débordement de pile pour déboguer le code est probablement acceptable, à d’autres fins, étant donné que le modèle de langage peut produire un contenu plagié, cela peut entraîner des conséquences négatives pour l’utilisateur. »
Le résultat du plagiat n’est pas quelque chose d’inattendu, a ajouté Dongwon Lee.
« En tant que perroquet stochastique, nous avons appris à des modèles de langage à imiter les écrits humains sans leur apprendre à ne pas plagier correctement », a-t-il déclaré. « Maintenant, il est temps de leur apprendre à écrire plus correctement, et nous avons un long chemin à parcourir. »