Une étude a amené plusieurs humains à différencier les textes des écrivains professionnels et de l'IA. Il y a de bonnes nouvelles

ChatGPT a démontré ses capacités en matière d’écriture : son utilisation dans le domaine académique devient (dangereusement ?) populaire, et sa manière d’écrire des textes – avec des styles différents et en imitant certains auteurs – est convaincante. Certains médias commencent déjà à utiliser ces moteurs pour rédiger du contenu, et la question est de savoir si les écrivains professionnels devraient s’inquiéter. La réponse, du moins pour l’instant, semble être un non catégorique.

La créativité peut-elle être mesurée ? Une étude récente menée par des chercheurs de Salesforce et de l’Université de Columbia a cherché à savoir comment les textes écrits par des écrivains professionnels, par des écrivains amateurs et par un modèle d’IA générative sont actuellement appréciés. L’idée était d’évaluer « la créativité en tant que produit » à travers une variante du Torrance Test of Creative Thinking (TTCT).

Voici comment les experts ont évalué chaque histoire : la plupart des histoires du NewYorker ont été identifiées comme provenant d’auteurs professionnels, tandis que seul Claude a obtenu un certain nombre d’histoires identifiées comme provenant d’écrivains amateurs. Les histoires ChatGPT étaient le plus souvent identifiées comme écrites par une IA. Source : ArXiv.

Les preuves. Dans le cadre de l’étude, une banque de tests a été créée avec 48 nouvelles d’environ 1 400 mots. 12 d’entre eux ont été créés par des rédacteurs professionnels, et 36 par trois modèles de langage majeurs (LLM) appliqués à leurs chatbots respectifs : ChatGPT (GPT-3.5), ChatGPT (GPT-4) et Claude 1.3. Ils ont recruté une équipe de 10 experts en écriture créative, qui ont administré les tests TTCT (dans ce cas, TTCW, pour « Écriture » et non « Pensée ») en effectuant trois évaluations différentes pour chaque histoire.

L’IA, médiocre. Dans les résultats, ils ont confirmé que les « histoires générées par les LLM » ont entre trois et dix fois moins de chances de réussir les tests TTCW que les histoires écrites par des experts. La conclusion de l’étude est évidente et souligne « la compétence des écrivains expérimentés à évoquer la créativité ». , surperformant largement les LLM.

ChatGPT a beaucoup à apprendre. En fait, les chercheurs ont également évalué comment ces LLM pourraient s’améliorer dans ce domaine et dans ces tests pour évaluer leur créativité. Selon les experts, les LLM « ont non seulement un double défi : produire du contenu intrinsèquement créatif, mais ils n’ont pas non plus la délicatesse nécessaire pour évaluer la créativité comme le font les experts ».

Surprendre. Ces résultats sont quelque peu surprenants, notamment parce que les outils existants pour détecter les textes générés par l’IA n’offrent pas la confiance attendue. OpenAI a lancé le sien et a fini par le retirer après avoir admis qu’il ne fonctionnait pas avec suffisamment de précision.

Nous avons toujours un problème. Il semble que les écrivains professionnels peuvent (nous pouvons) dormir tranquilles, mais cela ne signifie pas qu’il existe déjà des problèmes avec ce type de moteurs d’IA générative. On le voit notamment sur Amazon, où apparaissent un grand nombre de titres écrits par des moteurs d’IA qui volent même le nom d’auteurs humains.