ChatGPT était censé s'améliorer avec le temps. Selon une étude, c'est le contraire qui se produit

« Le nombre 17077 est-il premier ? Raisonnez-le étape par étape. » Il devrait être assez facile de répondre à cette simple question pour un modèle d’IA comme ChatGPT, surtout avec le temps qui s’est écoulé depuis sa sortie et son évolution. On pourrait penser que ce chatbot s’améliore et devient plus précis, mais cela ne semble pas se produire.

L’étude. Mardi dernier, des chercheurs de l’Université de Stanford et de l’Université de Californie à Berkeley ont publié une étude qui évaluait comment à la fois GPT-3.5 (utilisé dans le ChatGPT gratuit) et GPT-4 (utilisé dans ChatGPT Plus) et sur Bing Chat). Les conclusions sont surprenantes : en général, les deux modèles se sont détériorés.

Les preuves. À l’aide de l’API de ces modèles, les chercheurs ont analysé les performances de ces modèles dans deux versions différentes, la version de mars 2023 et la version de juin 2023. Ils ont effectué des tests composés de questions de résolution de problèmes mathématiques, de questions sensibles, de génération de code et de raisonnement visuel.

17077 est premier, mais pas pour ChatGPT. L’un des tests les plus frappants était celui que nous avons indiqué au début de l’article. On a demandé au chatbot si le nombre 17077 est premier (il est) en raisonnant la réponse, et ce même test a été effectué avec 500 exemples. Les changements de précision étaient incroyables. GPT-4, qui corrige 97,6% des questions avec sa version de mars, est tombé à une précision de 2,4% dans sa version de juin. C’est exactement le contraire qui s’est produit pour GPT-3.5 et il est passé de 7,4 % en mars à 86,8 % en juin.

Plus (ou moins) bavard. Ils ont également noté que GPT-4 était moins « bavard » : les réponses étaient succinctes et le nombre de caractères générés est passé de 821,2 en mars à 3,8 en juin. GPT-3.5, en revanche, a écrit des réponses 40 % plus longues. Dans Simseo, nous avons vérifié qu’avec l’exemple exposé, 17077, GPT-3.5 disait directement qu’il n’était pas premier, alors que GPT-4 n’était pas capable de l’assurer et générait un petit programme Python que l’utilisateur devait exécuter pour le vérifier (mais il n’a pas donné de réponse). Le programme, une fois exécuté, a donné la bonne réponse.

Plus protégé contre les ‘jailbreaks’. Les chercheurs ont également voulu essayer de poser des questions délicates pour essayer de forcer différentes versions de ChatGPT à se comporter de manière incorrecte. Les jailbreaks et les exploits sont déjà connus, mais au moins dans GPT-4, le comportement était plus sécurisé (il ne répondait qu’à 5% des questions sensibles dans sa version de juin, contre 21% en mars), bien qu’il explique à peine pourquoi pas. Bien. GPT-3.5 a répondu davantage dans sa dernière version (de 2% à 8% en juin).

Code moins exécutable. Ce chatbot est largement utilisé pour générer du code, mais son évolution dans cette section est également erratique. Selon les chercheurs, pour GPT-4, le code généré directement exécutable (et donc plus réactif) est passé de 52 % à 10 % en juin, et pour GPT-3.5, le pourcentage est également passé de 22 % à 2 %. GPT-4 a écrit des réponses plus longues avec plus de texte non codé.

ChatGPT s’aggrave-t-il ? L’étude arrive à un moment curieux, d’autant plus que plusieurs discussions dans des forums tels que Hacker News révèlent que pour de nombreux utilisateurs, la qualité de ChatGPT s’est dégradée. Parmi les théories envisagées, OpenAI pourrait proposer des versions « légères » pour réduire les ressources nécessaires – telles que le temps GPU – pour calculer toutes ces informations.

Dans OpenAI, ils nient le plus grand. Peter Welinder, l’un de ses gérants, indiqué que tout est probablement dû à notre perception : en l’utilisant beaucoup, nous commençons à détecter des problèmes que nous n’avions pas remarqués auparavant. Même ainsi, les dirigeants de l’entreprise ils enquêtent sur ces plaintes.

Preuve discutable. D’autres experts affirment que l’étude n’est pas particulièrement concluante en raison des mesures qu’elle a utilisées. Arvind Narayanan, professeur d’informatique à Princeton, expliqué que dans les tests de code « ils ne testent pas l’exactitude du code (bizarre). Ils vérifient simplement si le code est directement exécutable. Ainsi, la tentative du nouveau modèle d’être plus utile a compté contre lui. »

L’opacité complique tout. La vérité est qu’il est difficile d’évaluer la progression de ces modèles si l’on tient compte du fait qu’OpenAI est particulièrement opaque par rapport à ses modèles. Comme ils l’expliquent dans Ars Technica, il n’y a aucune transparence sur la façon dont ils sont formés ou sur les ensembles de données qui sont utilisés, et leur propre fonctionnement interne est un mystère même pour leurs créateurs. Ici, l’option serait d’adopter une approche Open Source telle que celle que Meta a suivie avec Llama et Llama 2, récemment sorti.