Outil conçu pour détecter l'IA qui score en haute précision, faible sur les fausses accusations

Détecter l'écriture via l'intelligence artificielle est une danse délicate: le faire correctement signifie être efficace pour l'identifier tout en veillant à ne pas accuser faussement un humain de l'utiliser. Et peu d'outils établissent le bon équilibre.

Une équipe de chercheurs de l'Université du Michigan a déclaré avoir conçu une nouvelle façon de dire si un texte écrit par l'IA passe les deux tests – quelque chose qui pourrait être particulièrement utile dans le monde universitaire et la politique publique à mesure que le contenu de l'IA prolifère et devient plus indiscernable du contenu généré par l'homme.

L'équipe appelle son outil «Liketropy», qui s'inspire de l'épine dorsale théorique de sa méthode: il mélange la probabilité et l'entropie, deux idées statistiques qui alimentent son test.

Ils ont conçu des «tests statistiques à tirs zéro», ce qui peut déterminer si une écriture a été écrite par un modèle humain ou un grand langage sans nécessiter une formation préalable sur des exemples de chacun.

L'outil actuel se concentre sur LLMS, un type spécifique d'IA pour la production de texte. Il utilise des propriétés statistiques du texte lui-même, comme la façon dont les mots sont surprenants ou prévisibles, pour décider s'il semble plus humain ou généré par la machine.

Lors des tests sur des ensembles de données à grande échelle – même ceux dont les modèles étaient cachés au public ou où le texte généré par l'IA a été conçu pour dépasser les détecteurs – les chercheurs disent que leur outil a bien fonctionné. Lorsque le test est conçu avec des LLM spécifiques à l'esprit en tant que générateurs potentiels du texte, il atteint une précision moyenne supérieure à 96% et un faux taux d'accusation aussi faible que 1%.

« Nous étions très intentionnels de ne pas créer de détecteur qui pointe juste les doigts. Les détecteurs d'IA peuvent être trop confiants, et c'est risqué, en particulier dans l'éducation et la politique », a déclaré Tara Radvand, un doctorant à la Ross School of Business de l'UM qui a co-écrit l'étude. « Notre objectif était d'être prudent quant aux fausses accusations tout en signalant le contenu généré par l'AI avec confiance statistique. »

Parmi les résultats inattendus des chercheurs, il y avait à quel point ils avaient besoin de connaître un modèle de langue pour être capable de l'attraper. Le test a fonctionné et a toujours bien performé, ce qui remet en question l'hypothèse que la détection doit s'appuyer sur l'accès, la formation ou la coopération, a déclaré Radvand.

L'équipe était motivée par l'équité, en particulier pour les étudiants internationaux et les anglophones non natifs. La littérature émergente montre que les élèves qui parlent anglais comme une deuxième langue peuvent être injustement signalés pour l'écriture « semblable à une AI » en raison de la structure du ton ou de la phrase.

« Notre outil peut aider ces élèves à contrôler leur écriture dans une manière transparente à faible enjeux et transparente avant la soumission », a déclaré Radvand.

Quant aux prochaines étapes, elle et ses collègues prévoient d'étendre leur démo dans un outil qui peut être adapté dans différents domaines. Ils ont appris que des domaines tels que le droit et les sciences, ainsi que des candidatures comme les admissions universitaires, ont des seuils différents dans le compromis « prudent efficace ».

Une application critique pour les détecteurs d'IA consiste à réduire la propagation de la désinformation sur les réseaux sociaux. Certains outils forment intentionnellement les LLM à adopter des croyances extrêmes et répandre une désinformation sur les médias sociaux pour manipuler l'opinion publique.

Parce que ces systèmes peuvent générer un faux contenu à grande échelle, les chercheurs disent qu'il est crucial de développer des outils de détection fiables qui peuvent signaler ces contenus et commentaires. L'identification précoce aide les plateformes à limiter la portée des récits nuisibles et à protéger l'intégrité du discours public.

Ils prévoient également de parler avec UM Business and University Leaders de la perspective d'adopter leur outil en complément à UM GPT et à l'assistant de maïs AI pour vérifier si le texte a été généré par ces outils par rapport à un modèle d'IA externe, tel que Chatgpt.

Liketropy a reçu un prix de la meilleure présentation au Michigan Student Symposium for Interdisciplinary Statistical Sciences, un événement annuel organisé par des étudiants diplômés. Il a également été présenté par Paris Women in Machine Learning and Data Science, une communauté de femmes en France intéressée par l'apprentissage automatique et la science des données qui accueille divers événements.

La recherche est publiée sur le arxiv serveur de préimprimée.