Trop de tirets EM? Des mots étranges comme «Delves? Repérer le texte écrit par Chatgpt est encore plus d'art que la science

Les gens utilisent désormais régulièrement des chatbots pour écrire du code informatique, résumer des articles et des livres, ou sollicitent des conseils. Mais ces chatbots sont également utilisés pour générer rapidement du texte à partir de zéro, certains utilisateurs faisant passer les mots comme les leurs.

Cela a, sans surprise, créé des maux de tête pour les enseignants chargés d'évaluer le travail écrit de leurs élèves. Il a également créé des problèmes pour les personnes qui cherchent des conseils sur des forums comme Reddit ou des avis sur les produits de consultation avant d'effectuer un achat.

Au cours des dernières années, les chercheurs ont exploré s'il est même possible de distinguer l'écriture humaine du texte généré par l'intelligence artificielle. Mais les meilleures stratégies pour faire la distinction entre les deux peuvent provenir des chatbots eux-mêmes.

Trop bon pour être humain?

Plusieurs études récentes ont souligné à quel point il est difficile de déterminer si le texte a été généré par un humain ou un chatbot.

Les participants à la recherche recrutés pour une étude en ligne en 2021, par exemple, n'ont pas pu faire la distinction entre les histoires générées par l'homme et le Chatgpt, les articles de presse et les recettes.

Les experts linguistiques ne s'en sortent pas mieux. Dans une étude en 2023, les membres du comité de rédaction pour les meilleures revues en linguistique n'ont pas pu déterminer quels résumés d'articles avaient été écrits par les humains et lesquels ont été générés par Chatgpt. Et une étude en 2024 a révélé que 94% des examens de premier cycle rédigés par Chatgpt étaient non détectés par les élèves dans une université britannique.

De toute évidence, les humains ne sont pas très bons dans ce domaine.

Une croyance communément répandue est que des mots rares ou inhabituels peuvent servir de « raconte » concernant la paternité, tout comme un joueur de poker pourrait en quelque sorte donner une main gagnante.

Les chercheurs ont en fait documenté une augmentation spectaculaire de mots relativement rares, tels que « Delves » ou « Crucial », dans des articles publiés dans des revues scientifiques au cours des deux dernières années. Cela suggère que des termes inhabituels pourraient servir de disposition que l'IA générative a été utilisée. Cela implique également que certains chercheurs utilisent activement des robots pour écrire ou modifier des parties de leurs soumissions aux revues universitaires. La question de savoir si cette pratique reflète les actes répréhensibles est à débattre.

Dans une autre étude, les chercheurs ont interrogé les gens sur les caractéristiques qu'ils associent au texte généré par Chatbot. De nombreux participants ont souligné l'utilisation excessive des tirets EM – un tableau de bord allongé utilisé pour déclencher du texte ou servir de rupture de pensée – comme un marqueur de la sortie générée par ordinateur. Mais même dans cette étude, le taux des participants de détection de l'IA n'était que marginalement meilleur que le hasard.

Compte tenu des performances aussi mauvaises, pourquoi tant de gens croient-ils que les tirets EM sont clairs pour les chatbots? C'est peut-être parce que cette forme de ponctuation est principalement employée par des écrivains expérimentés. En d'autres termes, les gens peuvent croire que l'écriture qui est « trop bonne » doit être générée artificiellement.

Mais si les gens ne peuvent pas faire intuitivement la différence, il existe peut-être d'autres méthodes pour déterminer la paternité humaine et artificielle.

Stylométrie à la rescousse?

Certaines réponses peuvent être trouvées dans le domaine de la stylorie, dans laquelle les chercheurs utilisent des méthodes statistiques pour détecter les variations des styles d'écriture des auteurs.

Je suis un scientifique cognitif qui est l'auteur d'un livre sur l'histoire des techniques stylotriques. Dans ce document, je documente comment les chercheurs ont développé des méthodes pour établir la paternité dans des cas contestés ou pour déterminer qui peut avoir écrit des textes anonymes.

Un outil pour déterminer la paternité a été proposé par le savant australien John Burrows. Il a développé le delta de Burrows, une technique informatisée qui examine la fréquence relative des mots communs, par opposition à des rares, qui apparaissent dans différents textes.

Il peut sembler contre-intuitif de penser que l'utilisation par quelqu'un de mots comme « le », « et » ou « peut déterminer la paternité, mais la technique a été impressionnante.

Le Delta de Burrows, par exemple, a été utilisé pour établir que Ruth Plumly Thompson, le successeur de L. Frank Baum, était l'auteur d'un livre contesté dans la série « Wizard of Oz ». Il a également été utilisé pour déterminer que les lettres d'amour attribuées au général confédéré George Pickett étaient en fait les inventions de sa veuve, Lasalle Corbell Pickett.

Un inconvénient majeur du delta de Burrows et des techniques similaires est qu'ils nécessitent une assez grande quantité de texte pour distinguer de manière fiable les auteurs. Une étude de 2016 a révélé qu'au moins 1 000 mots de chaque auteur peuvent être nécessaires. Un essai d'étudiant relativement court ne fournirait donc pas suffisamment de contribution à une technique statistique pour travailler sa magie d'attribution.

Des travaux plus récents ont utilisé ce que l'on appelle des modèles de langue Bert, qui sont formés sur de grandes quantités de texte généré par l'homme et le chatbot. Les modèles apprennent les modèles communs dans chaque type d'écriture, et ils peuvent être beaucoup plus discriminants que les gens: les meilleurs sont entre 80% et 98%.

Cependant, ces modèles d'apprentissage automatique sont des « boîtes noires » – c'est-à-dire que nous ne savons pas vraiment quelles caractéristiques des textes sont responsables de leurs capacités impressionnantes. Les chercheurs essaient activement de trouver des moyens de leur donner un sens, mais pour l'instant, il n'est pas clair si les modèles détectent des signaux spécifiques et fiables que les humains peuvent rechercher par eux-mêmes.

Une cible en mouvement

Un autre défi pour identifier le texte généré par le bot est que les modèles eux-mêmes changent constamment – parfois de manière majeure.

Au début de 2025, par exemple, les utilisateurs ont commencé à exprimer leurs préoccupations selon lesquelles Chatgpt était devenu trop obséquieux, avec des requêtes banales jugées « incroyables » ou « fantastiques ». OpenAI a abordé le problème en faisant revenir les modifications qu'il avait apportées.

Bien sûr, le style d'écriture d'un auteur humain peut également changer avec le temps, mais il le fait généralement plus progressivement.

À un moment donné, je me demandais ce que les robots avaient à dire par eux-mêmes. J'ai demandé à Chatgpt-4o: « Comment puis-je savoir si une prose a été générée par Chatgpt? Cela a-t-il des« racontes », comme un choix de mots caractéristique ou une ponctuation?

Le bot a admis que la distinction humaine de la prose non humaine « peut être délicate ». Néanmoins, il m'a fourni une liste de 10 éléments, remplie d'exemples.

Ceux-ci comprenaient l'utilisation de haies – des mots comme «souvent» et «généralement» – ainsi que la redondance, une dépendance excessive sur les listes et un «ton poli et neutre». Il a mentionné le «vocabulaire prévisible», qui comprenait certains adjectifs tels que «significatif» et «notable», ainsi que des termes académiques comme «implication» et «complexité». Cependant, bien qu'il ait noté que ces fonctionnalités de texte généré par Chatbot sont courantes, il a conclu que « aucun n'est définitif seul ».

Les chatbots sont connus pour halluciner ou faire des erreurs factuelles.

Mais quand il s'agit de parler d'eux-mêmes, ils semblent étonnamment perceptifs.