Un chercheur découvre que l’IA générative a du mal à répondre à des questions complexes lors d’un examen de droit de premier cycle
Cela fait près de deux ans que l’intelligence artificielle générative a été largement accessible au public. Certains modèles se sont montrés très prometteurs en réussissant les examens académiques et professionnels.
Par exemple, GPT-4 a obtenu des résultats supérieurs à 90 % des candidats à l'examen du barreau des États-Unis. Ces succès ont fait craindre que les systèmes d’IA puissent également passer facilement les évaluations universitaires. Cependant, ma récente étude dresse un tableau différent, montrant qu’il ne s’agit pas tout à fait de la puissance académique que certains pourraient penser.
Mon étude
Pour explorer les capacités académiques de l'IA générative, j'ai examiné ses résultats lors d'un examen final de premier cycle en droit pénal à l'Université de Wollongong, l'une des matières principales que les étudiants doivent réussir dans leurs diplômes. Il y avait 225 étudiants qui passaient l'examen.
L'examen durait trois heures et comportait deux sections. La première demandait aux étudiants d'évaluer une étude de cas sur des infractions pénales et la probabilité d'une poursuite judiciaire réussie. La seconde comprenait un court essai et une série de questions à réponse courte.
Les questions du test évaluaient un ensemble de compétences, notamment les connaissances juridiques, la pensée critique et la capacité à construire des arguments convaincants.
Les étudiants n’étaient pas autorisés à utiliser l’IA pour leurs réponses et ont effectué l’évaluation dans un environnement supervisé.
J'ai utilisé différents modèles d'IA pour créer dix réponses distinctes aux questions d'examen.
Cinq épreuves ont été générées en collant simplement la question d'examen dans l'outil d'IA, sans aucune invite. Pour les cinq autres, j’ai donné des invites détaillées et un contenu juridique pertinent pour voir si cela améliorerait le résultat.
J'ai écrit à la main les réponses générées par l'IA dans des livrets d'examen officiels et j'ai utilisé de faux noms et numéros d'étudiants. Ces réponses générées par l’IA ont été mélangées aux réponses réelles aux examens des étudiants et transmises de manière anonyme à cinq tuteurs pour qu’ils soient notés.
Il est important de noter que lors de la notation, les tuteurs ne savaient pas que l’IA avait généré dix des réponses à l’examen.
Comment les articles sur l’IA ont-ils fonctionné ?
Lorsque les tuteurs ont été interrogés après la notation, aucun d’entre eux ne soupçonnait que les réponses étaient générées par l’IA.
Cela montre le potentiel de l'IA à imiter les réponses des étudiants et l'incapacité des éducateurs à repérer de tels articles.
Mais dans l’ensemble, les articles sur l’IA n’étaient pas impressionnants.
Même si l’IA a obtenu de bons résultats dans les questions à développement, elle a eu du mal à résoudre des questions complexes qui nécessitaient une analyse juridique approfondie.
Cela signifie que même si l’IA peut imiter un style d’écriture humain, elle ne dispose pas de la compréhension nuancée nécessaire à un raisonnement juridique complexe.
La moyenne aux examens des étudiants était de 66%.
Les épreuves d'IA qui n'étaient pas incitées, en moyenne, n'ont battu que 4,3 % des étudiants. Deux ont réussi de justesse (la note de passage est de 50 %) et trois ont échoué.
En ce qui concerne les épreuves dans lesquelles des invites ont été utilisées, elles ont battu en moyenne 39,9 % des étudiants. Trois de ces articles n'étaient pas impressionnants et ont obtenu 50 %, 51,7 % et 60 %, mais deux ont plutôt bien réussi. L’un a obtenu un score de 73,3 % et l’autre un score de 78 %.
Qu'est-ce que cela signifie?
Ces résultats ont des implications importantes tant sur le plan de l’éducation que sur les normes professionnelles.
Malgré le battage médiatique, l’IA générative n’est pas près de remplacer les humains dans des tâches intellectuellement exigeantes telles que cet examen de droit.
Mon étude suggère que l’IA devrait être considérée davantage comme un outil et que, lorsqu’elle est utilisée correctement, elle peut améliorer les capacités humaines.
Les écoles et les universités devraient donc se concentrer sur le développement des compétences des étudiants pour collaborer avec l’IA et analyser ses résultats de manière critique, plutôt que de compter sur la capacité des outils à simplement cracher des réponses.
De plus, pour rendre possible la collaboration entre l’IA et les étudiants, nous devrons peut-être repenser certaines des notions traditionnelles que nous avons sur l’éducation et l’évaluation.
Par exemple, nous pourrions considérer qu’un étudiant qui demande, vérifie et modifie un travail généré par l’IA constitue sa contribution originale et doit toujours être considéré comme une partie précieuse de l’apprentissage.