il n'existe aucun moyen fiable de savoir si ChatGPT est meilleur que Gemini, Copilot ou Claude

Si vous utilisez un chatbot, Pourquoi utilises-tu celui-là et pas un autre ? C'est une question simple, mais la réponse sera difficilement définitive. Il est normal que les utilisateurs répondent qu'ils utilisent un chatbot Y en a-t-il un meilleur pour ce que je veux faire ?

Ce qui est drôle, c'est qu'à ce stade, nous ne le savons toujours pas. Il existe de nombreux benchmarks qui tentent d'évaluer les performances de ces modèles d'IA, mais entre ce que ces tests nous disent et l'expérience réelle, il y a généralement une grande différence. Ce qui semble être une bonne réponse pour certains peut ne pas l’être pour d’autres, et chaque scénario change car les chatbots ne répondent généralement pas exactement la même chose lorsque nous leur demandons.

Ouvert

Le graphique semble indiquer clairement que ce modèle est meilleur, mais dans quelle mesure ? Et surtout : est-il meilleur que les autres ? Combien et dans quelles sections ? Difficile de le savoir. Pour ne pas dire impossible.

Ils l'ont commenté dans le New York Times, soulignant combien de fois lorsqu'une entreprise présente son nouveau modèle d'IA, elle le fait avec des déclarations subjectives et difficiles à vérifier, comme par exemple qu'elle a des « capacités améliorées » sans préciser pourquoi.

C'est un vrai problème dans l'industrie. Nous ne savons pas si Gemini écrit un meilleur code que ChatGPT ou Copilot. Ou si ChatGPT Plus, qui est payant, vaut vraiment le coup par la qualité de ses réponses. Ou quel modèle de génération d’images est le meilleur pour créer des visages réalistes, même si ici la subjectivité et les opinions personnelles jouent un rôle encore plus important.

L’IA surpasse les humains dans certaines tâches (classification d’images, raisonnement visuel ou compréhension de l’anglais), mais certainement pas dans toutes les tâches (planification, mathématiques avancées ou raisonnement visuel). Source : Université de Stanford / Index AI.

L'AI Index, une étude récente intéressante de l'Institute for Human-Centered AI de l'Université de Stanford, le souligne précisément dans sa deuxième section, dans laquelle il parle des performances techniques des modèles.

Les chercheurs qui ont réalisé ce rapport très complet, facile à lire et à comprendre grâce à la prédominance du visuel, ont d’abord précisé que l’intelligence artificielle surpasse l’être humain dans certaines tâches, mais pas toutes.

Ils ont ensuite précisé que les modèles d’IA actuels en sont venus à saturer les tests actuels. ImageNet, SQuAD ou SuperGLUE, qui étaient jusqu'il y a peu de bons instruments de mesure pour les modèles d'IA, ne sont plus utiles : les modèles sont devenus trop beaux.

Ce qui est fait maintenant, c'est créer des tests encore plus exigeants, tels que SWE-bench pour la génération de code, HEIM pour la génération d'images, MMMU pour le raisonnement général, MoCa pour le raisonnement moral, AgentBench pour le comportement des agents IA et HaluEval pour analyser si le les modèles « hallucinent ».

Le « score ELO » utilisé dans le classement Chatbot Arena devient de plus en plus intéressant. Il ne mesure pas la qualité des modèles dans un benchmark, mais leur qualité pour ceux qui les utilisent, pour les utilisateurs.

Il existe également une métrique qui est de plus en plus importante pour les utilisateurs. Celui qui n’est pas synthétique en tant que tel, mais qui repose justement sur la note que les humains accordent à ces modèles.

Un modèle peut obtenir un score très élevé dans un test de génération de texte, mais À quoi ressemble-t-il pour un utilisateur qui l'utilise ? Des systèmes comme Chatbot Arena Leaderboard, qui enregistrent « l’opinion du public » à propos d’un chatbot (n’importe qui peut voter pour son chatbot préféré), sont de plus en plus pertinents lorsqu’il s’agit de suivre comment et dans quelle mesure ces modèles d’IA progressent.

On l'a vu récemment lors de la parution de Claude 3 Opus. Le nouveau modèle d'Anthropic a des performances dans les benchmarks qui semblent même dépasser GPT-4 – jusqu'à présent, la référence – dans certains scénarios « synthétiques ». L'important, cependant, est qu'il l'a surpassé en termes de score ELO dans le classement Chatbot Arena susmentionné – à ce moment-là, GPT-4 a regagné le trône – ce qui signifiait fondamentalement une chose.

Les gens « préfèrent » Claude 3 Opus au GPT-4. Ils ont le sentiment que c'est mieux.

Cela devient de plus en plus une manière de « faire confiance » à un chatbot et non à un autre. Dans le monde des processeurs, les benchmarks donnent généralement une idée très claire de ce que l’on peut en attendre. Il est vrai que les tests synthétiques sont également une référence et peuvent ne pas correspondre exactement à l'expérience finale, mais on peut se fier dans une large mesure à ces résultats.

Avec les modèles d’IA, les choses ne sont pas si claires, et C'est un problème. Une question qui semble être très difficile à résoudre pour le moment.

Images | Chryspnocrapaud avec Midjourney

À Simseo | L’AI Pin a atteint ses premiers utilisateurs. Et leurs conclusions ne sont pas du tout encourageantes.