Le nouveau méta-modèle a obtenu un très bon score lors des repères. Peut-être trop bien

Nous attendions depuis longtemps la nouvelle famille qui appelait 4 modèles d’intelligence artificielle. Le week-end dernier, l’entreprise a finalement révélé ces modèles et tout semblait prometteur. Le problème est que la façon de les annoncer est de générer une controverse et une conversation inconfortable: qu’ils ont peut-être triché dans les repères.

L’appel 4 semble génial. Dès qu’ils apparaissent sur la scène, les nouveaux modèles appellent le 4 objectif surpris par leur excellente performance dans les références. Ils étaient en deuxième place dans le classement LMarena, seulement en dessous de Gemini 2.5 Pro expérimental. Cependant, les soupçons sont rapidement apparus, car la version Flame 4 qui est disponible pour tous les publics n’était pas la même que celle qui a été montrée dans ce classement.

Version Trucada? Comme indiqué dans l’objectif de la ligne d’arrivée, cette version de Flame 4 était un « expérimental » qui a obtenu un ELO de 1 417 points dans Lmarena, tandis que Gemini 2.5 Pro expérimental avait obtenu 1 439 points. Certains experts ont souligné que cette version 4 de la flamme expérimentale était une version qui avait triché et avait été spécifiquement formée avec des ensembles de données utilisés dans les repères pour pouvoir bien marquer.

Nous n’avons pas triché.Ahmad Al-Dahle est le chef de la division générative de la ligne d’arrivée, et est donc en charge du lancement de Flame 4. Ce manager a brutalement nié les rumeurs selon lesquelles l’objectif aurait des pièges pour obtenir de meilleurs scores dans les repères. Ces rumeurs « sont fausses et nous ne le ferions jamais », a-t-il déclaré.

Mais c’était « optimisé ». Comme indiqué dans TechCrunch, dans cette annonce officielle, la méta a souligné le modèle expérimental Flame 4 qui avait été très bien « optimisé pour la conversation ». À Lmarena, ils ont indiqué que l’objectif aurait dû mieux expliquer le type de modèle envoyé pour inclure dans le classement.

Les mêmes appels 4 n’est pas si bon. Certains experts qui ont analysé Flame Performance 4 avec des tests synthétiques ou conventionnels ont déjà averti que les performances ne semblaient pas aussi bonnes qu’elles le prétendent dans la ligne d’arrivée. Le modèle accessible au public a montré un comportement qui n’était pas ajusté à la qualité qui visait son score en Lmarena.

Pas tout à fait cohérent. Al-Dahle lui-même a confirmé que certains utilisateurs voyaient des résultats de « qualité différente » de Maverick et Scout, les deux versions Flame 4 disponibles, selon le fournisseur. « Nous espérons que certains jours seront en retard lorsque les implémentations publiques seront ajustées », et a ajouté qu’ils continueraient à travailler pour corriger les erreurs possibles.

Une libération rare. Quel objectif lancera ce modèle un samedi est étrange, mais lorsqu’on lui a demandé cela, Mark Zuckerberg a répondu que « c’est quand il était prêt ». Le fait que le modèle utilisé dans Lmarena ne soit pas le même que les gens peuvent utiliser est également inquiétant, et il peut commencer à nous se méfier des références et des entreprises qui les utilisent pour promouvoir leurs produits. Ce n’est pas la première fois que cela se produit, encore moins, et ce ne sera pas le dernier.

Dans Simseo | Openai brûle de l’argent comme s’il n’y avait pas de lendemain. La question est de savoir combien peut durer comme ça