Les bons résultats aux tests du GPT-4 sont moins impressionnants qu'on ne nous l'a dit

Si GPT-4 était un étudiant, il serait l’un des plus brillants. OpenAI lui-même a évalué sa capacité avec une série d’examens créés pour les êtres humains et il a obtenu des notes spectaculaires. En fait, j’entrerais dans les 10% des meilleures notes, mais certains disent que cela ne veut pas dire grand-chose.

Que s’est-il passé. OpenAI a soumis GPT-4 à des tests académiques de toutes sortes, tels que le Examen uniforme du barreaule test le plus populaire aux États-Unis pour devenir avocat, ou le LSAT, le test qui donne la possibilité d’accéder à la Columbia Law School. a également été testé GRE Quantitatif, qui mesure la capacité à raisonner et à comprendre des concepts mathématiques. Dans presque tous, il a obtenu des résultats exceptionnels, ce qui semblait rendre le GPT-4 supérieur à la plupart des étudiants humains. Une étude récente de deux chercheurs révèle qu’il y a des problèmes avec cette perception.

Je soupçonne que les performances de GPT-4 sont influencées par la contamination des données, du moins sur Codeforces.

Parmi les problèmes les plus faciles sur Codeforces, il a résolu 10/10 problèmes antérieurs à 2021 et 0/10 problèmes récents.

Cela indique fortement une contamination.

1/4 https://t.co/wKtkyDRGGG pic.twitter.com/wm6yP6AmGx

– Horace He (@cHHillee) 14 mars 2023

pollution des données. Pour commencer, les chercheurs ont découvert que GPT-4 connaissait les réponses par cœur… lorsque sa mémoire était arrivée aussi loin. Les données sur lesquelles le modèle a été formé datent d’avant septembre 2021. Lorsqu’elles ont été testées avec des questions de programmation avant cette date, elles ont bien répondu, mais n’ont pu répondre à aucune avec des tests post-test, même lorsque les problèmes étaient simples.

Ce problème est décrit comme une « contamination des données », et même changer de petits détails dans la manière d’énoncer le problème peut confondre ChatGPT – qui était un étudiant médiocre – et probablement GPT-4, soulignent-ils alors que ce ne serait pas le cas dans le cas d’un humain

Ces examens sont destinés aux humains, pas aux machines.. « La mémorisation est un spectre », expliquent les auteurs. Même si un modèle comme GPT-4 n’a pas dans son apprentissage un problème exact qu’on lui demande de faire, « il est inévitable qu’il ait vu des exemples assez similaires, simplement à cause de la taille du corpus d’apprentissage ». Cela permet au modèle « d’utiliser un niveau de raisonnement beaucoup moins profond ». Pour ces experts, ces modèles linguistiques n’ont donc pas la capacité de raisonnement nécessaire aux humains examinés puis appliqués dans le monde réel.

Les comparaisons sont odieuses. Des examens comme celui d’accès à la profession d’avocat « mettent trop l’accent sur la connaissance de la matière et peu sur les compétences du monde réel, qui sont beaucoup plus difficiles à mesurer de manière standardisée ». Ou ce qui revient au même : ces examens non seulement ne mettent pas l’accent sur ce qui ne va pas, mais justement « ils mettent trop l’accent justement sur ce que les modèles linguistiques font bien ». Pour les auteurs de l’étude, le choix de ces tests pour évaluer le GPT-4 est « malheureux ».

qualité, pas quantité. Pour les chercheurs, des études qualitatives sont nécessaires, pas des études quantitatives. Bien qu’ils reconnaissent que GPT-4 « est vraiment passionnant et peut résoudre de nombreux problèmes pour les professionnels » comme l’automatisation des tâches de routine, ce type d’évaluation avec des examens tels que ceux utilisés par OpenAI peut prêter à confusion.

À Simseo | Comment éduquer et préparer un avenir où les robots font la majeure partie du travail

À Simseo | Les étudiants ne copient plus, ils utilisent ChatGPT : les universités commencent à surveiller l’utilisation de l’intelligence artificielle