Les concurrents du GPT-4 n'ont jamais réussi à lui tenir tête. Cela vient de changer avec le nouveau roi des chatbots

OpenAI a dominé le segment des modèles d’IA génératifs de texte d’une main de fer. Depuis le lancement de ChatGPT, la capacité de son chatbot a toujours été supérieure à celle de ses concurrents, ce qui Ils l'ont utilisé comme instrument de mesure: Chaque fois qu'un nouveau chatbot sortait, il promettait qu'il était meilleur que ChatGPT selon certains benchmarks.

La vérité est que même si dans les tests synthétiques cela pourrait être vrai, l’expérience utilisateur dit le contraire. La première version de ChatGPT, basée sur GPT-3.5, a déjà montré ses puissances dès le début, mais c'est le lancement de GPT-4 (utilisé dans ChatGPT Plus et aussi base de Copilot, anciennement Bing Chat) qui a clairement mis le LLM d'OpenAI au-dessus des autres. Les autres étaient à la traîne, et bien qu’ils se soient améliorés, ils n’ont pas réussi à « transmettre » un meilleur comportement lorsque nous les avons utilisés.

Cela vient de changer selon Chatbot Arena, un classement de plus en plus prestigieux créé par l'organisation Large Model Systems (LMSYS ORG) en collaboration avec plusieurs institutions académiques. Sa qualification et classification de grands modèles de langage est devenue une référence, et c'est parce qu'elle se distingue particulièrement des autres outils de ce type.

Ce qui se fait dans Chatbot Arena, c'est permettre aux utilisateurs de voter pour le modèle qui répond le mieux à leurs requêtes. Tout le monde peut participer, et grâce à cela ce classement nous permet de prendre en compte non seulement les paramètres techniques de modèles comme le GPT-4, mais aussi l'expérience utilisateur qu'il offre. Donc, ce que les utilisateurs pensent de chaque chatbot finit par être si important comme ce que disent les tests synthétiques. Ou plus.

Classement

Et comme le commentent nos collègues de Genbeta, les votes de 400 000 utilisateurs ont clairement montré qu'aujourd'hui GPT-4 a été dépassé. Il s'agit de Claude 3 Opus, le modèle que la firme Anthropic a présenté il y a quelques semaines et qui est (presque) vainqueur en ce score ELO particulier —un concept adapté du monde des échecs—que dans Chatbot Arena ils attribuent à chaque modèle.

Il est vrai que la différence avec GPT-4 est très faible, mais cela représente néanmoins un tournant unique qui montre qu’il existe une saine concurrence dans le monde des chatbots. Gemini Pro est classé quatrième, tandis que Mistral, le chatbot de la startup française, occupe la huitième place. Il est vrai que les variantes GPT-4 sont en tête du classement, mais malgré cela, les progrès d'Anthropic ici sont une excellente nouvelle pour la compétitivité sur ce marché.

D'autres études récentes semblent confirmer la montée en puissance de Claude 3. C'est ce que fait, par exemple, ce que l'on appelle le Berkeley Function-Calling Leaderboard (BFCL), un nouvel ensemble de tests qui n'évaluent pas le comportement de questions-réponses des utilisateurs. chatbots, mais plutôt leur capacité à devenir la base des futurs agents d’IA de plus en plus populaires.

Dans ce benchmark, Claude 3 Opus était supérieur au GPT-4, qui a encore une fois dominé le classement bien qu'il tombe également dans ce classement particulier du Mistral. Il semble donc que possibilité de « se connecter » à d’autres services via des fonctions dans des langages tels que Java, JavaScript, Python, des requêtes SQL ou des appels à des API REST est particulièrement remarquable dans le modèle Anthropic, qui a certainement un avenir prometteur.

Ces classements, oui, ils n'arrêteront pas de changer à court et moyen terme : l'évolution de ces LLM continue d'être frénétique et de fait, les signes indiquent que GPT-5 approche à grands pas. Pendant ce temps, les modèles qui profitent des licences Open Source comme Llama 2 ou Grok, qui vient de faire ses débuts dans cette section, pourraient également commencer à réaliser d'énormes gains dans toutes ces sections.

À Simseo | OpenAI accuse Musk de vouloir la fusionner avec Tesla et de vouloir un contrôle total : la bataille juridique ne fait que commencer