L’industrie littéraire récompense déjà les livres écrits avec l’IA. Et les détecteurs ne servent à rien

L’IA fait bien beaucoup de choses, mais l’écriture n’en fait pas partie. Et détecter si quelque chose est écrit par elle l’est encore moins. Depuis les premières générations de ChatGPT jusqu’aux modèles avancés comme Claude, l’IA n’a pas été capable d’écrire de manière humaine. Le ton, l’imperfection, la non-répétition de phrases éculées… Pour l’écrivain, il est relativement facile d’identifier quand un texte a été écrit avec l’IA.

Les détecteurs de texte écrits par l’IA ne semblent pas être aussi clairs. Bien écrire est devenu un « ceci a probablement été écrit par une IA », au point qu’il existe des IA qui détectent certains des grands livres de la littérature espagnole créés par l’IA. Et comme il n’y a aucun moyen de résoudre ce problème, certains en profitent.

Le désordre. L’une des actualités de la semaine montre la difficulté que nous avons à identifier si un texte est écrit ou non par l’IA. Trois des cinq lauréats régionaux du concours organisé par le magazine littéraire britannique Granta sont soupçonnés d’avoir écrit leurs œuvres de fiction avec l’IA.

Les accusations viennent des lecteurs des œuvres eux-mêmes, ainsi que des écrivains qui y ont participé. Il s’agit d’un concours très réputé dans le pays, dans lequel différentes nouvelles sont présentées et un prix est attribué à un écrivain pour chacune des grandes régions (Afrique, Asie, Canada, Europe…). Les prix s’élèvent jusqu’à 6 700 $ et c’est l’une des références anglaises en littérature courte.

Comment les gens le savent-ils ? L’une des œuvres gagnantes, Le Serpent dans le bosquet, a commencé à éveiller les soupçons.

Des expressions comme « pas X, pas Y, mais Z ». (« Pas le travail soigné des abeilles ni le bruit dur d’une machette contre la vigne, mais un son dur, comme si la terre avalait un cri et le retenait. »)
Mots étranges sans contexte (« la forêt bourdonne à midi »).
Certains fragments détectés par les outils d’IA sont créés à 100 % par l’IA.

L’auteur n’a fait aucune déclaration à ce sujet et, en parcourant ses comptes sur les réseaux sociaux… on constate qu’ils sont également générés par l’IA. En fait, l’affaire est si obscure qu’il a même fallu faire un effort pour prouver que l’auteur existait réellement et qu’il n’était pas un personnage créé par l’IA.

« Nous n’utilisons actuellement pas de systèmes d’IA dans notre processus de sélection car il s’agit d’un prix récompensant une fiction inédite. Fournir une œuvre originale inédite à un système d’IA soulèverait de sérieuses questions sur le consentement et la propriété intellectuelle. Nous n’utilisons pas non plus l’IA pour évaluer des histoires à aucun stade du processus. En soumettant leurs histoires au prix, les auteurs acceptent nos règles et directives de participation. Celles-ci incluent la confirmation que leur travail soumis est original. Tous les auteurs présélectionnés ont personnellement déclaré qu’aucune IA n’a été utilisée et, après consultation ultérieure, la Fondation l’a confirmé ».

Indétectable. Dans le cas de Granta, ils ne voulaient pas utiliser des systèmes d’IA pour reconnaître si les textes avaient été créés artificiellement ou non. Mais si cela avait été fait, cela ne servirait à rien. Des services bien connus tels que ZeroGPT ou Grammarly présentent des limites importantes lorsqu’il s’agit de détecter des textes techniques. En fait, certains ont déjà détecté des œuvres ou des fragments de la Bible reconnus comme contenus générés par l’IA. La même chose se produit dans l’autre sens : il existe des textes générés à 100 % par l’IA que les détecteurs peuvent interpréter comme 100 % humains, même si c’est un peu plus compliqué.

Les LLM (modèles linguistiques comme ChatGPT ou Claude) n’écrivent pas réellement, ils font simplement des prédictions. Son mécanisme de base consiste à calculer, mot par mot, quel est le prochain mot le plus probable compte tenu du contexte précédent. Cela produit des textes cohérents, bien structurés, grammaticalement impeccables… et plats, très plats et robotiques. L’IA choisit presque toujours l’option la plus prévisible, car c’est pour cela qu’elle est optimisée, et elle n’hésite pas à répéter des modèles dans les résultats qu’elle offre à chaque personne qui l’utilise.

Une mauvaise écriture comme solution ? Il est facile de trouver des exemples illustrant les moyens de contourner ces systèmes. Dans le cas de votre serviteur, je prépare une revue systématique sur un sujet assez académique, assez technique. L’université utilise des détecteurs d’IA, donc j’y passe généralement le texte pour vérifier le pourcentage.

Ma surprise réside précisément dans la façon dont les détecteurs d’IA pénalisent l’écriture correcte. Textes 100% humains détectés avec une probabilité de 80% d’avoir été générés par l’IA. Solution? Écrivez-les mais avec des phrases un peu plus décousues et sans rigueur absolue. Quoi qu’il en soit, la réflexion est claire : si même l’IA ne sait pas distinguer un texte écrit avec l’IA… comment les humains peuvent-ils le confirmer au niveau juridique ?

À Simseo | Nous avons un problème avec l’IA. Ceux qui étaient les plus enthousiastes au début commencent à en avoir assez.