Malgré les échecs, ChatGPT remporte la confrontation contre Stack Overflow

Crédit : Pixabay/CC0 Domaine public

Au début des années 2000, les amateurs d’informatique pouvaient entrer dans l’une des quelque 700 librairies Barnes and Noble et trouver allée après allée remplie de manuels sur la programmation, le codage, la conception, Internet et pratiquement tout autre sujet, même de loin lié à l’informatique. Des dizaines de magazines ont complété ce sanctuaire pour les accros de l’informatique.

Ces lignes ont pratiquement disparu depuis cette époque, en raison de la façon dont les utilisateurs obtiennent désormais des informations. Les livres numériques et les ressources Internet ont largement remplacé ces piles de livres.

Une ressource clé qui a contribué au déclin est Stack Overflow, une communauté en ligne très respectée de 20 millions d’utilisateurs enregistrés qui partagent des conseils et des solutions aux questions sur tous les aspects de la programmation. Depuis sa création en 2008, les participants ont posé plus de 24 millions de questions et reçu plus de 35 millions de réponses.

Mais le site très admiré a pris un coup cette année, victime de la popularité croissante des chatbots tels que ChatGPT, bien que Stack Overflow reste une ressource indispensable pour beaucoup.

Une société d’analyse a rapporté en mai que Stack Overflow avait subi plusieurs mois consécutifs de baisse du trafic de 6 % en moyenne depuis le premier de l’année. En avril, il y a eu une baisse de 17,7 % par rapport aux chiffres de mars.

Les transfuges qui affluent vers ChatGPT font-ils preuve de sagesse ?

Selon une nouvelle étude de l’Université Purdue, « Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions », ce n’est peut-être pas la meilleure décision.

Les chercheurs ont découvert ce que beaucoup soupçonnaient déjà : un nombre important de réponses de ChatGPT aux questions de programmation étaient inexactes ou carrément fausses. Ironiquement, cependant, lorsqu’on a demandé aux sujets de comparer les réponses de Stack Overflow et de ChatGPT, 40 % ont déclaré qu’ils préféraient les réponses de ChatGPT. Pourquoi? En raison de « l’exhaustivité » et du « style de langage articulé » persuasif des réponses de ChatGPT.

Les chercheurs ont déclaré que 52% des 512 réponses ChatGPT aux questions étaient incorrectes. De manière déconcertante, parmi les réponses préférées par les participants au test, 77% étaient fausses.

Même lorsque les réponses de ChatGPT étaient manifestement erronées, 2 sujets sur 12 préféraient toujours les réponses de ChatGPT à celles de Stack Overflow.

Selon Samia Kabir, l’un des auteurs de l’article, « les participants ont ignoré l’inexactitude lorsqu’ils ont trouvé la réponse de ChatGPT perspicace. La façon dont ChatGPT transmet en toute confiance des informations perspicaces [even if incorrect] l’information gagne la confiance de l’utilisateur, ce qui l’amène à préférer la mauvaise réponse. »

« Il est évident que le langage poli, les réponses articulées et de style manuel, l’exhaustivité et l’affiliation dans les réponses font que les réponses complètement fausses semblent correctes », a déclaré Kabir.

Les chercheurs ont noté que les grands modèles de langage ont le potentiel de bouleverser les anciennes méthodes d’obtention d’informations de programmation. Les utilisateurs cherchant de l’aide obtiennent des commentaires inestimables d’une communauté d’experts sur des sites tels que Stack Overflow. Mais ces sites nécessitent souvent une attente de plusieurs heures ou jours avant d’obtenir des solutions.

ChatGPT peut fournir des instructions de codage complexes en quelques secondes, et il s’engagera dans une conversation de type humain pour explorer les questions en profondeur.

Mais connaître la capacité des chatbots à acquérir et à propager des informations erronées « présente des risques pour les utilisateurs finaux non experts qui n’ont pas les moyens de vérifier les incohérences factuelles », a déclaré Kabir.

Les inquiétudes concernant le potentiel de contamination des pools d’informations avec de fausses données ont conduit Stack Overflow plus tôt cette année à interdire toute réponse obtenue par ChatGPT.

Les chercheurs de Purdue ont qualifié d' »alarmante » la prépondérance des réponses incorrectes. Ils ont exhorté ChatGPT à aller au-delà du bref avertissement qu’il publie sur chaque réponse informant les utilisateurs du potentiel d’erreur et de spécifier un niveau d’inexactitude et d’incertitude.

« Il est impératif d’étudier comment communiquer le niveau d’inexactitude des réponses », ont déclaré les chercheurs dans leur rapport, publié sur le serveur de préimpression. arXiv le 10 août.

« L’IA est plus efficace lorsqu’elle est supervisée par des humains », ajoute le rapport. « Par conséquent, nous appelons à une utilisation responsable de ChatGPT pour augmenter la productivité de l’IA humaine. »