Les scientifiques découvrent que ChatGPT est inexact lorsqu'il répond aux questions de programmation informatique

Une équipe d'informaticiens de l'Université Purdue a découvert que le populaire LLM, ChatGPT, est extrêmement imprécis lorsqu'il s'agit de répondre aux questions de programmation informatique. Dans leur article publié dans le cadre du Actes de la conférence CHI sur les facteurs humains dans les systèmes informatiquesle groupe décrit comment il a extrait des questions du site Web StackOverflow et les a posées à ChatGPT, puis a mesuré son degré d'exactitude lors de sa réponse.

L’équipe a également présenté ses conclusions lors de la conférence sur les facteurs humains dans les systèmes informatiques (CHI 2024) qui s’est tenue du 11 au 16 mai.

ChatGPT et d'autres LLM ont fait l'actualité récemment : depuis que ces applications ont été mises à la disposition du grand public, elles sont devenues très populaires. Malheureusement, outre le trésor d’informations utiles contenu dans de nombreuses réponses fournies par ces applications, il existe une multitude d’inexactitudes. Ce qui est encore plus regrettable, c’est qu’il n’est pas toujours clair quand les applications donnent des réponses fausses.

Dans cette nouvelle étude, l'équipe de Purdue a noté que de nombreux étudiants en programmation ont commencé à utiliser les LLM non seulement pour aider à écrire du code pour les tâches de programmation, mais aussi pour répondre à des questions liées à la programmation. À titre d'exemple, un étudiant pourrait demander à ChatGPT quelle est la différence entre un tri à bulles et un tri par fusion, ou, plus communément, qu'est-ce que la récursivité ?

Pour découvrir dans quelle mesure les LLM répondent précisément à ces questions, l’équipe de recherche a concentré ses efforts sur un seul d’entre eux : ChatGPT. Pour trouver des questions à utiliser pour tester l'application, les chercheurs ont utilisé des questions disponibles gratuitement sur le site Web StackOverflow. Il s'agit d'un site conçu pour aider les programmeurs à en apprendre davantage sur la programmation en travaillant avec d'autres personnes dans leur domaine d'intérêt. Sur une partie du site, les utilisateurs peuvent poser des questions auxquelles répondront d'autres personnes connaissant les réponses.

L'équipe de recherche a utilisé 517 questions trouvées sur le site, puis a mesuré la fréquence à laquelle ChatGPT donnait la bonne réponse. Malheureusement, ce n’était que 52 % du temps. Ils ont également constaté que les réponses avaient tendance à être plus verbeuses que ce ne serait le cas si l’on posait la même question à un expert humain.

De manière alarmante, l'équipe a constaté que les participants à l'étude sur les utilisateurs préféraient les réponses données par ChatGPT dans 35 % des cas. Les chercheurs ont également constaté que les mêmes utilisateurs lisant les réponses données par ChatGPT ne détectaient souvent pas les erreurs commises : ils ignoraient les mauvaises réponses dans 39 % du temps.