Vous pensez pouvoir tricher avec l'IA? Le chercheur crée des filigranes pour détecter l'écriture générée par l'AI-AI

L’intelligence artificielle met des instructeurs et des employeurs dans une position délicate lorsqu’il s’agit d’accepter le travail écrit, les laissant se demander: qui a écrit ceci? Un humain ou une IA?

Mais imaginez un filigrane numérique qui pourrait supprimer les suppositions et signaler en fait un texte généré par l’AI chaque fois que quelqu’un soumet son écriture. Un professeur d’ingénierie de l’Université de Floride développe cette technologie en ce moment.

« Si je suis étudiant et que j’écris mes devoirs avec Chatgpt, je ne veux pas que mon professeur détecte cela », a déclaré Yuheng Bu, Ph.D., professeur adjoint au Département de génie électrique et informatique en Le Herbert Wertheim College of Engineering.

En utilisant le supercalculateur Hipergator d’UF, BU et son équipe travaillent sur une méthode de filigrane invisible pour les modèles de grands langues conçus pour détecter de manière fiable le contenu généré par l’AI – même modifié ou paraphrasé – tout en maintenant la qualité de l’écriture.

Naviguer dans le paysage de l’IA

Les grands modèles de langue, tels que les Gémeaux de Google, sont des plates-formes AI capables de générer du texte humain. Les écrivains peuvent alimenter ces modèles d’IA, et les modèles termineront leurs affectations à l’aide d’informations de milliards de jeux de données. Cela crée un problème important dans les contextes académiques et professionnels.

Pour y remédier, Peter Scarfe, Ph.D., et d’autres chercheurs de l’Université de Reading au Royaume-Uni ont testé les niveaux de détection d’IA dans les salles de classe l’année dernière. Ils ont créé de faux profils d’étudiants et ont écrit leurs affectations en utilisant des plateformes de base générées par l’IA.

« Dans l’ensemble, les soumissions d’IA ont été frappées à être indétectables, 94% n’étant pas détectés », a noté cette étude. « Notre taux de détection de 6% surestime probablement notre capacité à détecter l’utilisation réelle de l’IA pour tricher les examens. »

La faible performance est due à l’avancement continu des modèles de grands langues, ce qui rend le texte généré par l’IA de plus en plus indiscernable du contenu manuscrit par l’homme. En conséquence, la détection devient progressivement plus difficile et peut éventuellement devenir impossible, a déclaré Bu.

Le filigrane offre une solution alternative et efficace en intégrant de manière proactive des signaux invisibles spécialement conçus dans du texte généré par l’IA. Ces signaux servent de preuve vérifiable de la génération d’IA, permettant une détection fiable.

Plus précisément, le travail de BU se concentre sur deux aspects clés: le maintien de la qualité du texte généré par le modèle de grande langue après le filigrane et assurer la robustesse du filigrane contre diverses modifications. La méthode adaptative proposée garantit que le filigrane intégré reste imperceptible pour les lecteurs humains, préservant l’écoulement naturel de l’écriture, par rapport aux modèles d’origine en grande langue.

Rationalisation du processus de détection

Certaines entreprises technologiques développent déjà des filigranes pour le texte généré par l’IA. Des chercheurs de Google Deepmind, par exemple, ont créé un filigrane de détection de texte l’année dernière et l’ont déployé à des millions d’utilisateurs de chatbot.

Interrogé sur la différence entre ces filigranes et son projet, Bu a déclaré que la méthode de l’UF « applique des filigranes à seulement un sous-ensemble de texte pendant la génération, nous pensons donc qu’il atteint une meilleure qualité de texte et une plus grande robustesse contre les attaques de retrait ».

De plus, le travail de BU améliore la force du système contre les modifications de texte courantes dans l’utilisation quotidienne, telles que le remplacement et la paraphrase des synonymes, qui rendent souvent les outils de détection d’IA inefficace. Même si un utilisateur réécrit complètement le texte filigrané, tant que la sémantique reste inchangée, le filigrane reste détectable avec une forte probabilité. Et une clé de filigrane est appliquée par la plate-forme elle-même.

« L’entité qui applique le filigrane contient également la clé requise pour la détection. Si le texte est filigrané par Chatgpt, Openai posséderait la clé correspondante nécessaire pour vérifier le filigrane », a déclaré Bu. « Les utilisateurs finaux qui cherchent à vérifier un filigrane doivent obtenir la clé de l’entité du filigrane. Notre approche utilise un mécanisme de clé privé, ce qui signifie que seul le titulaire de la clé peut détecter et valider le filigrane. »

Le principal problème maintenant, a déclaré Bu, c’est comment les utilisateurs finaux obtiennent cette clé de filigrane. Dans le cadre actuel, un professeur doit contacter l’entité qui incorpore le filigrane pour obtenir la clé ou utiliser une interface de programmation d’application fournie par l’entité pour détecter le filigrane. La question de savoir qui détient la clé et, par conséquent, la capacité de revendiquer la propriété intellectuelle, est essentielle dans le développement d’un modèle de filigrane de modèle grand.

« Une prochaine étape cruciale consiste à établir un écosystème complet qui applique l’utilisation et la distribution des clés ou développe des techniques plus avancées qui ne reposent pas sur une clé secrète », a déclaré Bu.

BU a écrit plusieurs articles sur les filigranes de l’IA, notamment « Adaptive Text Watermark pour les modèles de grandes langues » pour la Conférence internationale sur l’apprentissage automatique (ICML 2024), publié sur le arxiv Préprint Server l’année dernière et « Framework théoriquement mis à la terre pour LLM Watermarking: une approche adaptative de la distribution », également disponible sur arxiv.

« Les filigranes ont le potentiel de devenir un outil crucial pour la confiance et l’authenticité à l’ère de l’IA générative », a déclaré Bu. « Je les vois intégrés de manière transparente dans les écoles pour vérifier les documents académiques et sur les plateformes numériques pour distinguer le contenu authentique de la désinformation. J’espère que l’adoption généralisée rationalisera la vérification et renforcera la confiance dans les informations sur lesquelles nous nous appuyons chaque jour. »