Comment savoir si le texte est généré par l’IA ? Les chercheurs ont découvert une nouvelle méthode

Comment savoir si le texte est généré par l’IA ? Les chercheurs ont découvert une nouvelle méthode

Avez-vous déjà regardé un écrit et pensé que quelque chose n'allait pas ? Il peut être difficile de déterminer exactement de quoi il s’agit. Il se peut qu’il y ait trop d’adjectifs ou que la structure de la phrase soit trop répétitive. Cela pourrait vous faire réfléchir : « Est-ce un humain qui a écrit ceci ou cela a-t-il été généré par l'intelligence artificielle ? »

Dans un nouvel article, des chercheurs de la Northeastern University ont tenté de répondre un peu plus facilement à cette question en analysant la syntaxe, ou la structure des phrases, du texte généré par l’IA. Ce qu’ils ont découvert, c’est que les modèles d’IA ont tendance à produire des modèles spécifiques de noms, de verbes et d’adjectifs plus fréquemment que les humains.

L'ouvrage est publié sur le arXiv serveur de préimpression.

« Cela valide empiriquement le sentiment selon lequel beaucoup de ces générations sont fondées sur des formules », déclare Byron Wallace, directeur du programme de science des données de Northeastern et professeur agrégé interdisciplinaire Sy et Laurie Sternberg. « Littéralement, ce sont des formules. »

Il est déjà bien connu que les modèles d'IA ont tendance à répéter certains mots. ChatGPT a traversé une période où il « approfondissait » toujours, explique Wallace. Mais Wallace affirme que cela « ne capture pas vraiment toute l’histoire » lorsqu’il s’agit d’identifier le texte généré par l’IA. Wallace et Chantal Shaib, titulaires d'un doctorat. étudiant à Northeastern qui dirige cette recherche, a décidé de regarder au-delà des mots qu'un modèle d'IA choisit et de se concentrer sur la syntaxe.

Les chercheurs ont incité un large éventail de modèles d’IA à produire certains types de textes, comme des résumés de critiques de films et d’articles de presse ou des recherches biomédicales. Ils ont ensuite analysé tout le texte généré par l’IA et identifié ce qu’ils appellent des modèles syntaxiques, certaines séquences de parties du discours répétées par les modèles d’IA.

Les types de modèles syntaxiques produits dans le texte variaient d'un modèle d'IA à l'autre. C'était presque comme si « chaque modèle avait sa propre signature », dit Wallace. Dans certains cas, cela ressemblait à des ensembles d’adjectifs doubles. Un résumé de la critique du film « Le dernier homme noir de San Francisco » décrit le film comme une « expérience de visionnage unique et intense », un « début très original et impressionnant » pour le réalisateur et « magique et stimulant », le tout dans l'espace de deux paragraphes.

« Les humains peuvent également produire ces modèles », explique Shaib. « Ils peuvent avoir une syntaxe répétée dans leur écriture, mais c'est à un taux bien inférieur à celui produit par les modèles. »

Shaib ajoute que la taille d'un modèle d'IA n'a pas d'impact sur la probabilité qu'il produise ces modèles. Chaque modèle analysé avait tendance à répéter des modèles syntaxiques à un rythme plus élevé que celui des humains.

Cependant, selon le style d’écriture examiné, la différence entre la fréquence à laquelle les modèles d’IA et les humains utilisent ces modèles diffère. L’écart était beaucoup plus réduit dans la rédaction biomédicale, qui dispose d’un guide de style spécifique. Pendant ce temps, dans les critiques de films et les articles de presse, des genres dans lesquels les écrivains peuvent faire preuve de plus de créativité, les modèles d’IA ont largement dépassé les humains en produisant les mêmes modèles, explique Shaib.

D'où viennent ces modèles ? dit Shaib.

« Ce que nous avons découvert, c'est qu'en réalité, ce n'est pas quelque chose que le modèle invente au cours du processus de génération », explique Shaib. « Nous avons pu retrouver environ 75 % de ces modèles dans les données de formation. »

Shaib admet que cette recherche ne vise pas à créer une méthode infaillible pour déterminer si un morceau de texte est généré par l’IA. Cependant, il fournit un nouveau modèle sur la façon dont les gens peuvent parler du texte généré par l’IA, en élargissant le cadre pour examiner non seulement des mots spécifiques mais un style d’écriture complet.

« Le plus grand avantage de cela est que cela nous donne un outil pour expliquer exactement pourquoi certains textes nous semblent un peu bizarres, surtout quand nous en voyons beaucoup à la suite », explique Shaib. « Cela nous donne une méthodologie pour analyser réellement ce qui se passe ici, au lieu de nous fier uniquement à un ressenti. »