De nouveaux travaux de chercheurs détectent les modèles d’écriture des LLM
Les gens écrivent avec un style personnel et des fioritures individuelles qui les distinguent des autres écrivains. Il en va de même pour l’IA, y compris les meilleurs programmes comme Chat GPT, selon de nouvelles recherches menées par l’Université Johns Hopkins.
Un nouvel outil peut non seulement détecter les écrits créés par l’IA, mais aussi prédire quel grand modèle linguistique les a créés, des résultats qui pourraient aider à identifier les tricheurs scolaires et les programmes linguistiques privilégiés par les personnes diffusant de la désinformation en ligne.
« Nous sommes les premiers à montrer que le texte généré par l'IA partage les mêmes caractéristiques que l'écriture humaine, et que cela peut être utilisé pour le détecter de manière fiable et l'attribuer à des modèles de langage spécifiques », a déclaré l'auteur Nicholas Andrews, chercheur scientifique principal à Centre d'excellence en technologie du langage humain de Johns Hopkins.
Les travaux, qui pourraient révéler quels programmes sont sujets aux abus et conduire à des contrôles et des garanties plus stricts, ont été présentés lors d'une conférence sur l'IA, la Conférence internationale sur les représentations d'apprentissage, en mai.
L’avènement de grands modèles de langage comme ChatGPT a permis à quiconque de générer facilement de fausses écritures. La plupart de ces pratiques sont bénignes, mais les écoles sont aux prises avec le plagiat et les mauvais acteurs diffusent du spam, du phishing et de la désinformation.
À la suite des élections de 2016 et des inquiétudes concernant les campagnes d'influence étrangère sur les réseaux sociaux, Andrews s'est intéressé au développement de technologies pour aider à lutter contre la désinformation en ligne.
« J'ai dit : essayons de créer une empreinte digitale de quelqu'un en ligne et voyons si ces empreintes correspondent à la désinformation que nous constatons », a déclaré Andrews. « Maintenant, nous avons ce marteau que nous avons passé des années à construire, et nous pouvons l'utiliser pour détecter ce qui est faux et ce qui n'est pas en ligne. De plus, nous pouvons déterminer s'il s'agissait de ChatGPT, Gemini ou LLaMA, car ils ont chacun des empreintes linguistiques qui les séparent. ils proviennent non seulement d'auteurs humains, mais également d'autres auteurs machines.

« La grande surprise est que nous avons construit le système sans intention de l'appliquer à l'écriture automatique et que le modèle a été formé avant que ChatGPT n'existe. Mais les fonctionnalités mêmes qui ont permis de distinguer les écrivains humains les uns des autres ont très bien réussi à détecter les empreintes digitales de l'écriture automatique. »
L'équipe a été surprise d'apprendre que chaque programme d'écriture d'IA a un style distinct. Ils avaient supposé que toute écriture automatique partagerait la même empreinte linguistique générique.
Leur outil de détection, formé sur des échantillons d'écriture anonymes de Reddit, fonctionne dans n'importe quelle langue. Il est accessible à tous pour une utilisation et un téléchargement gratuits. Il a déjà été téléchargé environ 10 000 fois.
L’équipe n’est pas la première à créer un système de détection d’écriture IA. Mais sa méthode semble être la plus précise et la plus agile, capable de répondre rapidement au paysage en constante évolution de l’IA.
« Les forces de l'ordre sont à l'origine de ce concept, en analysant les notes de rançon et autres écrits de criminels présumés et en essayant de les faire correspondre aux individus », a déclaré Andrews.
« Nous avons essentiellement augmenté cela. Nous avons supprimé le processus humain et manuel de définition de ces caractéristiques écrites, avons jeté beaucoup de données sur le problème et avons demandé au réseau neuronal de décider quelles caractéristiques sont importantes. Nous n'avons pas dit de regarder les points d'exclamation ou de regarder voix passive ou active. Le système l'a compris et c'est ainsi que nous avons pu faire bien mieux que les gens.
Lorsque l'équipe a présenté ses travaux à la Conférence internationale sur les représentations de l'apprentissage, l'auteur principal Rafael Rivera Soto, titulaire d'un doctorat de première année à Johns Hopkins. étudiant conseillé par Andrews, a créé une démo qui suscite la réflexion. Il a passé toutes les évaluations par les pairs de la conférence via le détecteur. Il a signalé environ 10 % des avis comme étant probablement générés par une machine – et probablement par ChatGPT.
Les auteurs incluent Aleem Khan, doctorant à Johns Hopkins ; Kailin Koch et Barry Chen du Laboratoire national Lawrence Livermore ; et Marcus Bishop du Département américain de la Défense.