Nous avons opposé ChatGPT à des outils de détection de texte écrit par l'IA, et les résultats sont troublants

Nous avons opposé ChatGPT à des outils de détection de texte écrit par l’IA, et les résultats sont troublants

Crédit : Mélanie Deziel / Unsplash

Comme le « guerres des chatbots » fait rage dans la Silicon Valley, la prolifération croissante des outils d’intelligence artificielle (IA) spécifiquement conçus pour générer texte d’apparence humaine a laissé beaucoup de perplexes.

Les éducateurs en particulier se bousculent pour s’adapter à la disponibilité de logiciels capables de produire un essai modérément compétent sur n’importe quel sujet à tout moment. Doit-on revenir aux évaluations papier-crayon ? Augmenter la supervision des examens ? Interdire complètement l’utilisation de l’IA ?

Tout cela et bien d’autres ont été proposés. Cependant, aucune de ces mesures moins qu’idéales ne serait nécessaire si les éducateurs pouvaient distinguer de manière fiable Texte généré par l’IA et écrit par l’homme.

Nous avons creusé plusieurs méthodes et outils proposés pour reconnaître le texte généré par l’IA. Aucun d’entre eux n’est infaillible, tous sont vulnérables aux solutions de contournement, et il est peu probable qu’ils soient jamais aussi fiables que nous le souhaiterions.

Vous vous demandez peut-être pourquoi les principales sociétés d’IA du monde ne peuvent pas distinguer de manière fiable les produits de leurs propres machines du travail des humains. La raison est ridiculement simple : la mission de l’entreprise dans les bras d’IA à enjeux élevés d’aujourd’hui est de former des IA de « processeur de langage naturel » (NLP) pour produire des sorties aussi similaires que possible à l’écriture humaine. En effet, les demandes du public pour un moyen facile de repérer de telles IA dans la nature peuvent sembler paradoxales, comme si nous manquions tout l’intérêt du programme.

Un effort médiocre

OpenAI—le créateur de ChatGPT—a lancé un « classificateur pour indiquer le texte écrit par l’IA » fin janvier.

Le classificateur a été formé sur des IA externes ainsi que sur les propres moteurs de génération de texte de l’entreprise. En théorie, cela signifie qu’il devrait être en mesure de signaler les essais générés par IA BLOOM ou similaires, pas seulement ceux créés par ChatGPT.

Nous donnons à ce classificateur une note C– au mieux. OpenAI admet qu’il n’identifie avec précision que 26 % du texte généré par l’IA (vrai positif) tout en étiquetant incorrectement la prose humaine comme étant générée par l’IA 9 % du temps (faux positif).

OpenAI n’a pas partagé ses recherches sur la vitesse à laquelle le texte généré par l’IA est incorrectement étiqueté comme texte généré par l’homme (faux négatif).

Un concurrent prometteur

Un concurrent plus prometteur est un classificateur créé par un étudiant de l’Université de Princeton pendant ses vacances de Noël.

Edouard Tianune majeure en informatique avec une mineure en journalisme, a publié la première version de GPTZéro en janvier.

Cette application identifie la paternité de l’IA en fonction de deux facteurs : la perplexité et l’éclatement. La perplexité mesure la complexité d’un texte, tandis que la rafale compare la variation entre les phrases. Plus les valeurs de ces deux facteurs sont faibles, plus il est probable qu’un texte ait été produit par une IA.

Nous avons opposé ce modeste David au goliath de ChatGPT.

Tout d’abord, nous avons invité ChatGPT à générer un court essai sur la justice. Ensuite, nous avons copié l’article – inchangé – dans GPTZero. L’outil de Tian a correctement déterminé que le texte était susceptible d’avoir été entièrement écrit par une IA, car ses scores moyens de perplexité et de rafale étaient très faibles.

Nous avons opposé ChatGPT à des outils de détection de texte écrit par l'IA, et les résultats sont troublants

GPTZero mesure la complexité et la variété d’un texte pour déterminer s’il est susceptible d’avoir été produit par l’IA. 1 crédit

Tromper les classificateurs

Un moyen facile d’induire en erreur les classificateurs IA consiste simplement à remplacer quelques mots par des synonymes. Des sites Web proposant des outils qui paraphrasent le texte généré par l’IA à cette fin apparaissent déjà partout sur Internet.

Beaucoup de ces outils affichent leur propre ensemble de cadeaux d’IA, comme parsemer la prose humaine avec « phrases torturées » (par exemple, en utilisant « conscience contrefaite » au lieu de « IA »).

Pour tester davantage GPTZero, nous avons copié l’essai de justice de ChatGPT dans GPT-Moins1-un site Web proposant de « brouiller » le texte ChatGPT avec des synonymes. L’image de gauche représente l’essai original. L’image de droite montre les changements de GPT-Minus1. Il a modifié environ 14% du texte.

Nous avons opposé ChatGPT à des outils de détection de texte écrit par l'IA, et les résultats sont troublants

GPT-Minus1 apporte de petites modifications au texte pour le rendre moins généré par l’IA. Crédit : GPT-Minus1

Nous avons ensuite copié la version GPT-Minus1 de l’essai sur la justice dans GPTZero. Son verdict ?

« Votre texte est très probablement écrit par un humain, mais il y a quelques phrases avec de faibles perplexités. »

Il a mis en évidence une seule phrase qui, selon lui, avait de fortes chances d’avoir été écrite par une IA (voir l’image ci-dessous à gauche) ainsi qu’un rapport sur les scores globaux de perplexité et de rafale de l’essai qui étaient beaucoup plus élevés (voir l’image ci-dessous à droite).

Nous avons opposé ChatGPT à des outils de détection de texte écrit par l'IA, et les résultats sont troublants

L’exécution d’un texte généré par l’IA via un outil de tromperie de l’IA le rend « plus humain ». 1 crédit

Des outils tels que celui de Tian sont très prometteurs, mais ils ne sont pas parfaits et sont également vulnérables aux solutions de contournement. Par exemple, un didacticiel YouTube récemment publié explique comment inviter ChatGPT à produire du texte avec des degrés élevés de – vous l’avez deviné – perplexité et rafale.

Filigrane

Une autre proposition est que le texte écrit par l’IA contienne un « filigrane » qui est invisible pour les lecteurs humains mais qui peut être capté par un logiciel.

Les modèles de langage naturel fonctionnent mot à mot. Ils sélectionnent le mot à générer en fonction de la probabilité statistique.

Cependant, ils ne choisissent pas toujours les mots avec la plus grande probabilité d’apparaître ensemble. Au lieu de cela, à partir d’une liste de mots probables, ils en sélectionnent un au hasard (bien que les mots avec des scores de probabilité plus élevés soient plus susceptibles d’être sélectionnés).

Cela explique pourquoi les utilisateurs obtiennent une sortie différente chaque fois qu’ils génèrent du texte à l’aide de la même invite.

Nous avons opposé ChatGPT à des outils de détection de texte écrit par l'IA, et les résultats sont troublants

L’une des interfaces de modèle de langage naturel d’OpenAI (Playground) donne aux utilisateurs la possibilité de voir la probabilité des mots sélectionnés. Dans la capture d’écran ci-dessus (capturée le 1er février 2023), nous pouvons voir que la probabilité que le terme « moral » soit sélectionné est de 2,45 %, ce qui est bien inférieur à « égalité » avec 36,84 %. Crédit : Terrain de jeu OpenAI

En termes simples, le filigrane consiste à « mettre sur liste noire » certains des mots probables et à permettre à l’IA de ne sélectionner que des mots dans une « liste blanche ». Étant donné qu’un texte écrit par un humain inclura probablement des mots de la « liste noire », cela pourrait permettre de le différencier d’un texte généré par l’IA.

Cependant, le tatouage a également des limites. La qualité du texte généré par l’IA pourrait être réduite si son vocabulaire était limité. De plus, chaque générateur de texte aurait probablement un système de filigrane différent, de sorte que le texte serait ensuite vérifié par rapport à chacun d’eux.

Le filigrane pourrait également être contourné par des outils de paraphrase, qui pourraient insérer des mots sur la liste noire ou reformuler des questions à développement.

Une course aux armements en cours

Les détecteurs de texte générés par l’IA deviendront de plus en plus sophistiqués. Service anti-plagiat TurnItIn a récemment annoncé un prochain détecteur d’écriture AI avec une précision revendiquée de 97%.

Cependant, les générateurs de texte deviendront également plus sophistiqués. Le concurrent ChatGPT de Google, Bard, est en premiers tests publics. OpenAI lui-même est attendu pour lancer une mise à jour majeure, GPT-4, plus tard cette année.

Il ne sera jamais possible de rendre parfaits les identificateurs de texte AI, car même OpenAI reconnaîtet il y aura toujours de nouveaux moyens de les induire en erreur.

Alors que cette course aux armements se poursuit, nous pourrions assister à la montée de la « paraphrase contractuelle »: plutôt que de payer quelqu’un pour écrire votre devoir, vous payez quelqu’un pour retravailler votre devoir généré par l’IA pour le faire passer les détecteurs.

Il n’y a pas de réponses faciles ici pour les éducateurs. Des correctifs techniques peuvent faire partie de la solution, mais il en sera de même pour les nouvelles méthodes d’enseignement et d’évaluation (qui peuvent inclure l’exploitation de la puissance de l’IA).

Nous ne savons pas exactement à quoi cela ressemblera. Cependant, nous avons passé l’année dernière à construire des prototypes d’outils d’IA open source pour l’éducation et la recherche dans le but d’aider à naviguer entre l’ancien et le nouveau – et vous pouvez accéder aux versions bêta sur IA sans danger.

Fourni par La Conversation