Pourquoi les détecteurs GPT ne sont pas une solution au problème de triche de l’IA
Dans le sillage du lancement très médiatisé de ChatGPT, pas moins de sept développeurs ou entreprises ont riposté avec des détecteurs d’IA. Autrement dit, l’IA, selon eux, est capable de dire quand le contenu a été écrit par une autre IA. Ces nouveaux algorithmes sont présentés aux éducateurs, journalistes et autres comme des outils pour signaler la tricherie, le plagiat et la mésinformation ou la désinformation.
Tout cela est très méta, mais selon un nouvel article d’universitaires de Stanford, il n’y a qu’un (très gros) problème : les détecteurs ne sont pas particulièrement fiables. Pire encore, ils sont particulièrement peu fiables lorsque le véritable auteur (un être humain) n’est pas de langue maternelle anglaise.
Les chiffres sont sinistres. Alors que les détecteurs étaient « presque parfaits » pour évaluer les essais rédigés par des élèves de huitième année nés aux États-Unis, ils ont classé plus de la moitié des essais TOEFL (61,22 %) rédigés par des étudiants non natifs anglais comme générés par l’IA (TOEFL est l’acronyme de le test d’anglais comme langue étrangère).
Ça s’empire. Selon l’étude, les sept détecteurs d’IA ont identifié à l’unanimité 18 des 91 essais d’étudiants TOEFL (19 %) comme générés par l’IA et un remarquable 89 des 91 essais TOEFL (97 %) ont été signalés par au moins un des détecteurs.
« Cela dépend de la façon dont les détecteurs détectent l’IA », explique James Zou, professeur de science des données biomédicales à l’Université de Stanford, affilié au Stanford Institute for Human-Centered AI et auteur principal de l’étude. « Ils obtiennent généralement un score basé sur une métrique connue sous le nom de » perplexité « , qui est en corrélation avec la sophistication de l’écriture – quelque chose dans laquelle les locuteurs non natifs vont naturellement suivre leurs homologues nés aux États-Unis. »
Zou et ses co-auteurs soulignent que les locuteurs non natifs obtiennent généralement des scores inférieurs sur les mesures de perplexité courantes telles que la richesse lexicale, la diversité lexicale, la complexité syntaxique et la complexité grammaticale.
« Ces chiffres posent de sérieuses questions sur l’objectivité des détecteurs d’IA et soulèvent la possibilité que des étudiants et des travailleurs nés à l’étranger soient injustement accusés ou, pire, pénalisés pour avoir triché », a déclaré Zou, soulignant les préoccupations éthiques de l’équipe.
Zou note également que de tels détecteurs sont facilement renversés par ce que l’on appelle « l’ingénierie rapide ». Ce terme d’art dans le domaine de l’IA signifie simplement demander à l’IA générative de « réécrire » des essais, par exemple, pour inclure un langage plus sophistiqué, dit Zou. Il donne un exemple de la facilité avec laquelle il est possible de contourner les détecteurs. Un étudiant souhaitant utiliser ChatGPT pour tricher pourrait simplement brancher le texte généré par l’IA avec l’invite : « Élevez le texte fourni en utilisant un langage littéraire ».
« Les détecteurs actuels ne sont clairement pas fiables et faciles à manipuler, ce qui signifie que nous devons être très prudents quant à leur utilisation comme solution au problème de triche de l’IA », déclare Zou.
La question se tourne alors vers ce qu’il faut faire à ce sujet. Zou propose quelques suggestions. Dans l’immédiat, dit-il, nous devons éviter de nous fier aux détecteurs dans les établissements d’enseignement, en particulier là où il y a un grand nombre d’anglophones non natifs. Deuxièmement, les développeurs doivent dépasser l’utilisation de la perplexité comme principale métrique pour trouver des techniques plus sophistiquées ou, peut-être, appliquer des filigranes dans lesquels l’IA générative intègre des indices subtils sur son identité dans le contenu qu’elle crée. Enfin, ils doivent rendre leurs modèles moins vulnérables au contournement.
« Les détecteurs sont tout simplement trop peu fiables à l’heure actuelle, et les enjeux sont trop importants pour les étudiants, pour faire confiance à ces technologies sans une évaluation rigoureuse et des améliorations significatives », déclare Zou.
Les conclusions sont publiées sur le arXiv serveur de préimpression.