Une nouvelle étude identifie les différences entre le texte humain et généré par l'IA

Une équipe de chercheurs de l’Université de Carnegie Mellon a décidé de voir à quel point les modèles de langue (LLM) avec précision peuvent correspondre au style de texte écrit par les humains. Leurs résultats ont été récemment publiés dans le Actes de l’Académie nationale des sciences.

« Nous humains, nous adaptons la façon dont nous écrivons et comment nous parlons à la situation. Parfois, nous sommes formels ou informels, ou il existe différents styles pour différents contextes », a déclaré Alex Reinhart, auteur principal et professeur d’enseignement associé au Département de statistique et de science des données.

« Ce que nous avons appris, c’est que les LLM, comme Chatgpt et Llama, écrivent d’une certaine manière, et ils ne s’adaptent pas nécessairement au style d’écriture. Le contexte et leur style sont en fait très distinctifs de la façon dont les humains écrivent ou ne parlent normalement dans différents contextes. Personne n’a mesuré ou quantifié de la manière que nous avons pu faire. »

Dans cette étude, Reinhart et son équipe ont pu montrer comment les LLMS écrivent en les invitant à des extraits d’écriture de divers genres, tels que les scripts télévisés et les articles académiques. En utilisant le code écrit par David West Brown, professeur d’enseignement associé au Département d’anglais et co-auteur de l’étude, ils ont trouvé de grandes différences dans les caractéristiques grammaticales, lexicales et stylistiques entre le texte écrit par les LLM et les humains.

Ces différences étaient les plus importantes pour les modèles réglés par l’instruction, tels que Chatgpt, qui suivent une formation supplémentaire pour répondre aux questions et suivre les instructions.

Selon les chercheurs, les LLM ont utilisé des clauses de participe actuelles à deux à cinq fois le taux de texte humain, comme en témoigne cette phrase écrite par GPT-4O: « Bryan, s’appuyant sur son agilité, danse autour du ring, échappant aux coups lourds. »

Ils ont également utilisé des nominalisations à 1,5 à deux fois le taux d’humains, et GPT-4O utilise la voix passive sans agent à la moitié du taux en tant qu’humains. Cela suggère que les LLM sont formées pour écrire dans un style informationnellement dense et lourd, ce qui limite leur capacité à imiter d’autres styles d’écriture.

Les chercheurs ont également constaté que les LLM à réglage de l’instruction ont des vocabulaires distinctifs, utilisant des mots beaucoup plus souvent que les humains qui écrivent dans le même genre. Par exemple, les versions de Chatgpt ont utilisé la « camaraderie » et la « tapisserie » environ 150 fois plus souvent que les humains, tandis que les variantes de lama utilisaient « un malaise » 60 à 100 fois plus souvent. Les deux modèles avaient de fortes préférences pour « palpable » et « complexe ».

« Il y a eu (beaucoup d’anxiété circulant parmi les enseignants. Et je me suis dit – en tant que personne qui fait du travail informatique et fonctionne beaucoup avec la science des données pour quelqu’un qui est dans un département d’anglais – que ce n’est pas vraiment ce que les écrivains font », a déclaré Brown. « Nous n’écrivons pas une fois. Nous écrivons encore et encore et encore et encore. Donc, la question était: peut-on (LLMS) peut-il générer un seul off qui semble plausible?

« Le message que je pense que nous voulions vraiment communiquer était de réfléchir très attentivement dans les circonstances (utilisant les LLM) pourrait être bien », a déclaré Brown. «Je me soucie que les notes de mon médecin soient exactes. Je m’en fiche vraiment si elles sont dans la voix de mon médecin.

« Mais si j’écris une lettre de demande d’emploi où je veux me démarquer, cela compte beaucoup. En tant qu’instructeurs, écrivains et communicateurs, nous devons être conscients des idiosyncrasies et des lacunes de LLMS. »

Reinhart a également noté des préoccupations croissantes concernant ce qui se passe si les étudiants utilisent les LLM pour effectuer des devoirs.

« Certaines personnes diront que c’est comme quand nous avons des calculatrices pour les cours de mathématiques. Et maintenant vous utilisez simplement la calculatrice, et c’est génial. Ce que nous avons appris, c’est que ce n’est pas tout à fait comme une calculatrice », a déclaré Reinhart. « Vous utilisez une calculatrice, elle fait les mêmes mathématiques que vous alliez faire, mais cela ne bouscule pas et n’oublie pas de porter celui-ci. Mais ici, vous obtenez quelque chose de différent de ce qu’un humain typique écrit. »

Les chercheurs ont noté qu’une étude plus approfondie et un examen plus large sur plus de LLM sont nécessaires pour comprendre l’importance et l’impact du réglage des instructions sur ces modèles. Un projet en cours de Ph.D. L’étudiant Ben Markey consiste à étudier comment les LLM peuvent être utilisées pour évaluer l’écriture humaine, comme les essais des étudiants, et à quel point leurs évaluations sont cohérentes.

« Pouvez-vous donner un modèle grand langage, dire un essai et le faire évaluer? » Demanda Brown. « Que fait (Markey) est plutôt que de donner à un LLM juste un essai ou quelque chose une fois, que se passe-t-il si vous lui donnez les critères et le donnez encore et encore et encore?