Une étude montre que ChatGPT rédige de meilleurs dissertations scolaires que les étudiants

Dans une étude publiée dans Rapports scientifiques, une équipe de recherche de l’Université de Passau a comparé la qualité du contenu généré automatiquement avec des essais rédigés par des élèves du secondaire. Résultat : le chatbot basé sur l’IA a obtenu de meilleurs résultats sur tous les critères, notamment en matière de maîtrise de la langue.

Le modèle linguistique ChatGPT fait d’énormes progrès. Après que la version 3.5 ait échoué à l’Abitur bavarois (un examen délivré à la fin de l’école secondaire en Allemagne) début 2023, sa version 4 qui lui a succédé a obtenu un solide 2 près de six mois plus tard.

Une étude de l’Université de Passau vient de démontrer à quel point les contenus générés par l’IA pourraient révolutionner le système scolaire. Les chercheurs ont également expérimenté les deux versions du modèle de langage.

Dans une étude intitulée « Une comparaison à grande échelle des essais écrits par des humains et des essais générés par ChatGPT » et publiée dans Rapports scientifiques, ils ont conclu que la machine rédigeait de meilleurs essais en anglais. Ils ont évalué des textes générés automatiquement et des essais rédigés par des élèves du secondaire conformément aux lignes directrices établies par le ministère de l’Éducation de Basse-Saxe.

« J’ai été surpris par la clarté des résultats », déclare le professeur Steffen Herbold, titulaire de la chaire d’ingénierie de l’IA à l’université de Passau et à l’origine de l’étude. Les deux versions de chatbot Open AI ont obtenu des résultats supérieurs à ceux des étudiants, GPT-3 se classant au milieu et GPT-4 obtenant le meilleur score. « Cela montre que les écoles ne doivent pas fermer les yeux sur ces nouveaux outils. »

Réflexion sur les modèles d’IA

L’étude interdisciplinaire a été réalisée par les informaticiens en collaboration avec la professeure Annette Hautli-Janisz, linguiste informatique, et la didacticienne informatique Ute Heuer. « Je trouve qu’il est important de préparer les enseignants aux défis et aux opportunités qui se présentent à mesure que les modèles d’intelligence artificielle deviennent de plus en plus disponibles », déclare Heuer.

Elle a lancé une formation sur « ChatGPT – Opportunité et défi » menée par l’équipe de recherche. Cet événement, qui a eu lieu en mars 2023, a réuni 139 enseignants, dont la plupart enseignent dans des gymnases allemands. Les enseignants ont d’abord été informés des idées technologiques sélectionnées derrière les générateurs de texte généraux et ChatGPT. La phase pratique portait alors spécifiquement sur des textes en langue anglaise dont les participants à la formation ignoraient l’origine de ces textes.

À l’aide de questionnaires, les enseignants ont été invités à évaluer les essais qui leur étaient présentés sur la base d’échelles de notation établies par le ministère de l’Éducation de Basse-Saxe. Le contenu a été évalué sur la base des critères suivants : sujet, exhaustivité et logique, ainsi que sur des aspects linguistiques tels que le vocabulaire, la complexité et la maîtrise de la langue. L’équipe de recherche de Passau a défini une échelle de 0 à 6 pour chaque critère, 0 étant le pire score et 6 le meilleur.

La machine obtient des résultats supérieurs à la moyenne en matière de maîtrise de la langue

Cent onze enseignants ont rempli l’intégralité du questionnaire et évalué un total de deux cent soixante-dix dissertations en anglais. L’équipe de recherche a trouvé la plus grande différence dans la maîtrise de la langue, où la machine a obtenu respectivement 5,25 (GPT-4) et 5,03 points (GPT-3), alors que les étudiants ont obtenu une moyenne de 3,9 points.

« Cela ne signifie pas que les étudiants maîtrisent mal l’anglais. Au contraire, les scores obtenus par la machine sont exceptionnellement élevés », souligne Annette Hautli-Janisz, professeure junior de rhétorique informatique et de traitement du langage naturel à l’université de Passau.

Pour Hautli-Janisz, qui a analysé les textes d’un point de vue linguistique avec la doctorante Zlata Kikteva, l’étude fournit d’autres informations passionnantes sur le développement du langage de la machine. « Nous avons vu comment les modèles évoluent au fil du temps et sommes en mesure de démontrer grâce à nos études qu’ils se sont améliorés dans l’exécution de la tâche que nous leur confions. »

Les chercheurs ont également pu identifier des différences entre le langage humain et celui généré par la machine. « Lorsque nous lirons davantage de textes générés par l’IA, nous devrons nous demander si et comment cela affecte notre langage humain », explique Hautli-Janisz.

Fourni par l’Université de Passau