Écrivain humain ou IA ? Des chercheurs construisent un outil de détection
Le lancement d’OpenAI ChatGPT, avec ses réponses remarquablement cohérentes aux questions ou aux invites, a catapulté les grands modèles linguistiques (LLM) et leurs capacités dans la conscience publique. Les gros titres capturaient à la fois l’enthousiasme et l’inquiétude : peut-il écrire une lettre de motivation ? Permettre aux gens de communiquer dans une nouvelle langue ? Aider les étudiants à tricher à un examen ? Influencer les électeurs sur les réseaux sociaux ? Mettre les écrivains au chômage ?
Maintenant, avec des modèles similaires provenant de Google, Meta, etc., les chercheurs demandent plus de surveillance.
« Nous avons besoin d’un nouveau niveau d’infrastructure et d’outils pour fournir des garde-fous autour de ces modèles », déclare Eric Anthony Mitchell, étudiant diplômé en informatique de quatrième année à l’Université de Stanford dont le doctorat est en cours. la recherche se concentre sur le développement d’une telle infrastructure.
Un garde-corps clé fournirait aux enseignants, aux journalistes et aux citoyens un moyen de savoir quand ils lisent un texte généré par un LLM plutôt que par un humain. À cette fin, Mitchell et ses collègues ont développé DetectGPT, publié sous forme de démo et d’article la semaine dernière, qui fait la distinction entre le texte généré par l’homme et le LLM. Lors des premières expériences, l’outil identifie avec précision la paternité 95 % du temps sur cinq LLM open source populaires.
Alors que l’outil en est à ses débuts, Mitchell espère l’améliorer au point qu’il puisse bénéficier à la société.
« La recherche et le déploiement de ces modèles de langage évoluent rapidement », déclare Chelsea Finn, professeur adjoint d’informatique et de génie électrique à l’Université de Stanford et l’un des conseillers de Mitchell. « Le grand public a besoin de plus d’outils pour savoir quand nous lisons du texte généré par un modèle. »
Une intuition
Il y a à peine deux mois, un autre étudiant diplômé et co-auteur, Alexander Khazatsky, a envoyé un texto à Mitchell pour lui demander : pensez-vous qu’il existe un moyen de classer si un essai a été écrit par ChatGPT ? Cela a fait réfléchir Mitchell.
Les chercheurs avaient déjà essayé plusieurs approches générales à effet mitigé. L’une, une approche utilisée par OpenAI lui-même, consiste à former un modèle avec du texte généré à la fois par un humain et un LLM, puis de lui demander de classer si un autre texte a été écrit par un humain ou un LLM. Mais, pensait Mitchell, pour réussir dans plusieurs matières et langues, cette approche nécessiterait une énorme quantité de données pour la formation.
Une deuxième approche existante évite de former un nouveau modèle et utilise simplement le LLM qui a probablement généré le texte pour détecter ses propres sorties. Essentiellement, cette approche demande à un LLM combien il « aime » un échantillon de texte, dit Mitchell. Et par « j’aime », il ne veut pas dire qu’il s’agit d’un modèle sensible qui a des préférences. Au contraire, le « goût » d’un modèle pour un morceau de texte est une manière abrégée de dire « obtient un score élevé », et cela implique un seul chiffre : la probabilité que cette séquence spécifique de mots apparaisse ensemble, selon le modèle. « S’il l’aime beaucoup, c’est probablement du modèle. Si ce n’est pas le cas, ce n’est pas du modèle. » Et cette approche fonctionne raisonnablement bien, dit Mitchell. « Cela fait beaucoup mieux que de deviner au hasard. »
Mais alors que Mitchell réfléchissait à la question de Khazatsky, il a eu l’intuition initiale que parce que même les LLM puissants ont des biais subtils et arbitraires pour utiliser une formulation d’une idée plutôt qu’une autre, le LLM aura tendance à « aimer » toute légère reformulation de ses propres sorties moins que le original. En revanche, même lorsqu’un LLM « aime » un morceau de texte généré par l’homme, ce qui signifie qu’il lui donne une cote de probabilité élevée, l’évaluation par le modèle des versions légèrement modifiées de ce texte serait beaucoup plus variée. « Si nous perturbons un texte généré par l’homme, il est à peu près également probable que le modèle l’aimera plus ou moins que l’original. »
Mitchell s’est également rendu compte que son intuition pouvait être testée à l’aide de modèles open source populaires, y compris ceux disponibles via l’API d’OpenAI. « Calculer à quel point un modèle aime un morceau de texte particulier est essentiellement la façon dont ces modèles sont formés », explique Mitchell. « Ils nous donnent ce numéro automatiquement, ce qui s’avère vraiment utile. »
Tester l’intuition
Pour tester l’idée de Mitchell, lui et ses collègues ont mené des expériences dans lesquelles ils ont évalué à quel point divers LLM accessibles au public aimaient le texte généré par l’homme ainsi que leur propre texte généré par le LLM, y compris les faux articles d’actualité, l’écriture créative et les essais universitaires. Ils ont également évalué à quel point les LLM, en moyenne, aimaient 100 perturbations de chaque texte LLM et généré par l’homme. Lorsque l’équipe a tracé la différence entre ces deux nombres pour LLM par rapport aux textes générés par l’homme, ils ont vu deux courbes en cloche qui se chevauchaient à peine. « Nous pouvons assez bien faire la distinction entre la source des textes en utilisant ce seul numéro », explique Mitchell. « Nous obtenons un résultat beaucoup plus robuste par rapport aux méthodes qui mesurent simplement à quel point le modèle aime le texte original. »
Dans les premières expériences de l’équipe, DetectGPT a réussi à classer le texte généré par l’homme par rapport au LLM 95 % du temps lors de l’utilisation de GPT3-NeoX, une puissante variante open source des modèles GPT d’OpenAI. DetectGPT était également capable de détecter le texte généré par l’homme par rapport au LLM en utilisant des LLM autres que le modèle source d’origine, mais avec un peu moins de confiance. (Pour le moment, ChatGPT n’est pas accessible au public pour tester directement.)
Plus d’intérêt pour la détection
D’autres organisations cherchent également des moyens d’identifier le texte écrit par l’IA. En fait, OpenAI a publié la semaine dernière son nouveau classificateur de texte et signale qu’il identifie correctement le texte écrit par l’IA 26 % du temps et classe incorrectement le texte écrit par l’homme comme écrit par l’IA 9 % du temps.
Mitchell hésite à comparer directement les résultats d’OpenAI avec ceux de DetectGPT car il n’y a pas d’ensemble de données standardisé pour l’évaluation. Mais son équipe a mené des expériences en utilisant le détecteur d’IA préformé de la génération précédente d’OpenAI et a constaté qu’il fonctionnait bien sur les articles de presse en anglais, qu’il fonctionnait mal sur les articles de PubMed et qu’il échouait complètement sur les articles de presse en allemand. Ces types de résultats mitigés sont courants pour les modèles qui dépendent de la pré-formation, dit-il. En revanche, DetectGPT a fonctionné immédiatement pour ces trois domaines.
Éviter la détection
Bien que la démo DetectGPT ne soit accessible au public que depuis environ une semaine, les commentaires ont déjà été utiles pour identifier certaines vulnérabilités, déclare Mitchell. Par exemple, une personne peut concevoir de manière stratégique une invite ChatGPT pour échapper à la détection, par exemple en demandant au LLM de parler de manière idiosyncrasique ou d’une manière qui semble plus humaine. L’équipe a quelques idées pour atténuer ce problème, mais ne les a pas encore testées.
Une autre préoccupation est que les étudiants utilisant des LLM comme ChatGPT pour tricher sur les devoirs modifieront simplement le texte généré par l’IA pour échapper à la détection. Mitchell et son équipe ont exploré cette possibilité dans leur travail, constatant que bien qu’il y ait une baisse de la qualité de la détection pour les essais édités, le système faisait toujours un assez bon travail pour repérer le texte généré par la machine lorsque moins de 10% à 15% de les mots avaient été modifiés.
À long terme, dit Mitchell, l’objectif est de fournir au public une prédiction fiable et exploitable pour savoir si un texte – ou même une partie d’un texte – a été généré par une machine. « Même si un modèle ne pense pas qu’un essai ou un article de presse entier a été écrit par une machine, vous voudriez un outil capable de mettre en évidence un paragraphe ou une phrase qui semble particulièrement conçu par une machine », dit-il.
Pour être clair, Mitchell pense qu’il existe de nombreux cas d’utilisation légitimes des LLM dans l’éducation, le journalisme et ailleurs. Cependant, dit-il, « donner aux enseignants, aux lecteurs de nouvelles et à la société en général les outils nécessaires pour vérifier la source des informations qu’ils consomment a toujours été utile, et le reste même à l’ère de l’IA ».
Construire des garde-corps pour les LLM
DetectGPT n’est que l’un des nombreux garde-fous que Mitchell construit pour les LLM. Au cours de la dernière année, il a également publié plusieurs approches pour l’édition de LLM, ainsi qu’une stratégie appelée « modèles d’autodestruction » qui désactive une LLM lorsque quelqu’un essaie de l’utiliser à des fins néfastes.
Avant de terminer son doctorat, Mitchell espère affiner chacune de ces stratégies au moins une fois de plus. Mais en ce moment, Mitchell est reconnaissant pour l’intuition qu’il a eue en décembre. « En science, il est rare que votre première idée fonctionne aussi bien que DetectGPT semble le faire. Je suis heureux d’admettre que nous avons eu un peu de chance. »
L’étude est publiée sur le arXiv serveur de préimpression.