Il y a ceux qui croient que les meilleures AIS deviennent plus idiotes au fil du temps. Ce n'est pas une folie

Une nouvelle intelligence artificielle (IA) sort sur le marché, les réseaux sociaux et les communautés spécialisées hallucinent avec leurs nouvelles capacités, et en même temps, un cycle commence où les utilisateurs qui connaissent les modèles le plus commencent à ressentir la déception. Selon leur expérience, ce qui s'est réalisé hier sans problèmes via Chatbot ou API, reste aujourd'hui dans une vague tentative.

Modèles « Super Broken ». Lors de son lancement, Gemini 2.5 Pro a récolté d'énormes éloges dans les réseaux sociaux. Le modèle était très rapide, le moins cher, avait une énorme fenêtre de contexte et était une bête en programmation. Cependant, pendant quelques semaines, des commentaires ont émergé dans des communautés telles que Reddit qui décrivent un modèle « inutilisable ».

Un modèle qui, comme décrit, a incroyablement bien fonctionné entre mars et juin, mais qu'après avoir utilisé maintenant fin juillet, a laissé échapper « un non-sens absolu ». Il a montré une conversation avec Gemini résumé par l'assistant dans lequel il n'a pas cessé de reconnaître les erreurs. D'autres utilisateurs présentent également des comportements ennuyeux tels que le fait de ne pas terminer les réponses.

Ce ne sont que des exemples récents concernant Google AI, mais même des modèles aussi loués que Claude ont reçu à différents moments critiques similaires, même récemment avec Claude Code.

Soupçon. De nombreux utilisateurs qui ont critiqué les différents modèles parlent de modèles de coupe: « Mon hypothèse est qu'ils ont réduit la taille du modèle », a déclaré un utilisateur de Claude 3.5 dans Hacker News. La suspicion est que, au fil du temps, et en période de demande maximale, les entreprises commencent à utiliser des versions distillées de modèles d'IA qui ne sont pas si intelligents, car elles ont des ressources moins dédiées pour répondre aux indications.

Le développeur Ian Nuttal a également observé la dégradation de Claude Code et a affirmé qu'il paierait pour avoir une bonne version qui ne serait jamais réduite ou dégradée aux heures de pointe. Alex Finn, développeur également, a également exprimé sa frustration: « Cela m'est arrivé avec tous les outils de programmation IA que j'ai utilisés. »

Ce n'est pas seulement une sensation. En 2023, de nombreux utilisateurs ont estimé que GPT-4, le modèle le plus avancé d'Openai à l'époque, devenait idiot. La société a affirmé que contrairement à ce que la communauté a dénoncé, elle a rendu chaque nouvelle version « plus intelligente que la précédente ».

Cependant, un article académique a mis fin aux spéculations: les experts de Berkeley et de Stanford ont vérifié une baisse de précision de précision spectaculaire entre ses variantes en mars et juin 2023. Dans la programmation, par exemple « le pourcentage de réponses générées directement exécutables a été réduite de 52,0% en mars à 10,0% en juin ». D'autres études statistiques de la fin 2023 ont également montré une perte importante de qualité entre le modèle de décembre et de mai.

Problèmes ouverts et anthropiques confirmés. En décembre 2023, Openai reconnu qu'ils avaient reçu les commentaires sur l'assistant devenant plus vague. Ils ont affirmé qu'ils n'avaient pas mis à jour le modèle un mois plus tôt et qu'il n'était pas intentionnel, reconnaissant le problème et expliquant que « le comportement du modèle pourrait être imprévisible ».

Certains utilisateurs sont venus concevoir (et réaliser, selon leur expérience) des méthodes pour encourager le modèle à faire mieux, comme la promesse surprenante de donner un pourboire ou d'expliquer au chatbot qu'ils n'avaient pas de doigts pour écrire le code.

Plus récemment, Anthropic a reconnu que TechCrunch avait des problèmes dans Claude Code, comme des temps de réponse plus lents, avant les plaintes des utilisateurs d'avoir une utilisation limitée sans avoir signalé ouvertement. Les utilisateurs qui effectuaient auparavant des tâches normalement et ne pouvaient plus progresser.

Dans Simseo | J'ai essayé le jour, le navigateur qui remplace l'arc et parie tout à l'IA. Il n'est pas sorti comme prévu