Pour comparer en crise: voici comment améliorer les tests
Il n’est pas facile d’être l’un des repères préférés de la Silicon Valley.
Banc de swe (prononcé « Swee Bench ») a été lancé en novembre 2024 pour évaluer la capacité de programmation des modèles d’IA, en utilisant plus de 2 mille problèmes de programmation réels provenant du référentiel public GitHub de 12 projets basés à Python différents.
Depuis lors, il est rapidement devenu l’un des tests les plus populaires dans le domaine de l’intelligence artificielle. Le score Swe-Bench est désormais une constante dans les présentations de nouveaux modèles d’Openai, Anthropic et Google. Même au-delà des modèles de fondation, les entreprises qui se retrouvent sont en concurrence constante pour conquérir le sommet. En haut du classement, trois versions raffinées du modèle anthropique Claude Sonnet di et leÂge pour les développeurs d’Amazon. Code de code rover – L’une des variantes de Claude – il a conquis la deuxième place en novembre et n’a été acquise que trois mois plus tard.
La montée (et les contradictions) de Swe-Bench
Malgré tout cet enthousiasme, la référence ne représente pas nécessairement une évaluation véridique de quel modèle est « meilleur ». Avec la croissance de sa popularité, « nous commençons à voir que les gens veulent vraiment conquérir la première place », dit-il John Yangchercheur d’équipe qui a développé SWE-Bench à l’Université de Princeton. Par conséquent, les participants ont commencé à exploiter le système, poussant beaucoup à se demander s’il existe une meilleure façon de mesurer les progrès de l’IA.
Modèles optimisés pour gagner (mais pas pour généraliser)
Les développeurs de ces agents de codage ne sont pas nécessairement en combattant au sens strict, mais les approches de planification sont trop adaptées aux spécificités de la référence. L’ensemble de tests SWE initial a été limité aux programmes écrits en Python, ce qui a permis aux équipes d’obtenir un avantage en formant les modèles exclusivement avec le code Python.
Yang a rapidement remarqué que les modèles avec des scores élevés ont complètement échoué s’ils étaient testés avec d’autres langages de programmation, révélant une approche qui décrit comme « d’or ».
« À première vue, il est beau et brillant, mais vous essayez ensuite de l’exécuter dans une autre langue et tout s’effondre », explique-t-il. « À ce stade, vous ne prévoyez pas d’agent d’ingénierie logicielle. Vous prévoyez un agent pour surmonter Swe-Bench, ce qui est beaucoup moins intéressant. »
La crise de l’évaluation: lorsque la référence perd de la valeur
Le problème de Swe-Bench est le symptôme d’un problème plus large et plus complexe dans l’évaluation de l’intelligence artificielle, qui alimente de plus en plus un débat animé: la référence utilisée par l’industrie pour orienter le développement s’éloigne de la mesure des compétences réelles, remettant en question leur valeur fondamentale.
Pour aggraver la situation, certaines référence comme Frontitierhath Et Arène de chatbot ont récemment été critiqués pour leur prétendu manque de transparence. Malgré cela, la référence continue de jouer un rôle central dans le développement des modèles, même si peu d’experts font aveuglément confiance aux résultats.

Andrej Karpathyco-fondateur d’Openai, a récemment décrit la situation comme « une crise d’évaluation« : L’industrie a des méthodes de moins en moins fiables pour mesurer les compétences et aucune voie claire vers de meilleures solutions.
« Historiquement, la référence était la façon dont nous avons évalué les systèmes d’intelligence artificielle. Est-ce ainsi que nous voulons continuer à les évaluer? Et si ce n’est pas le cas, quelle est l’alternative? », Se demande-t-il Vanessa parleDirecteur de la recherche au Stanford Institute for Human-Center AI.
De la technologie aux sciences sociales
Un groupe croissant d’universitaires et de chercheurs affirme que la réponse est de redimensionner l’approche, abandonnant l’ambition généraliste en faveur d’une méthode inspirée des sciences sociales.
En particulier, ils proposent de se concentrer davantage sur validitéqui, pour les sciences sociales quantitatives, indique dans quelle mesure un outil mesure ce qui prétend mesurer, et, plus profond, si ce qui mesure une définition cohérente.
« Prendre la validité au sérieux signifie demander à ceux qui travaillent dans le monde académique, dans l’industrie ou ailleurs pour démontrer que leur système fait ce qu’il dit à faire », dit-il Abigail Jacobsprofesseur à l’Université du Michigan, parmi les figures centrales de cette nouvelle orientation. « Je pense que c’est un signe de faiblesse du monde de l’IA si vous voulez éviter de montrer que vous êtes en mesure de soutenir ce que vous dites. »
Les limites des tests traditionnels
Pourquoi les entreprises d’IA sont-elles si lentes à réagir? En partie parce que pendant longtemps, le modèle de score a bien fonctionné.
L’un des premiers grands succès de l’IA moderne a été le Imagenet Challengelancé en 2010 en tant que concurrence publique pour classer plus de 3 millions d’images dans 1 000 catégories. L’algorithme Alexneten 2012, a adopté toutes les attentes grâce à une forme innovante de formation avec GPU, devenant un résultat fondateur pour l’IA.
La raison pour laquelle Imagenet a si bien fonctionné? Il n’y avait presque aucune différence entre l’activité requise par le test et la fonction réelle de la reconnaissance d’une image. Mais aujourd’hui, les repères sont utilisés pour évaluer une capacité beaucoup plus large: SWE-Bench comme indicateur de capacité de programmation, MMLU pour la logique ou les connaissances. Cette généralisation rend plus difficile de définir ce qui mesure réellement une référence, et donc en utilisant les résultats avec responsabilité.
Lorsque les tests « se brisent »
Anka ReuelDottaranda à Stanford, est convaincu que le problème découle précisément de cette poussée de la généralité. « Nous sommes passés de modèles spécifiques pour une tâche à des modèles à des fins générales », dit-il. « Ce n’est pas plus qu’une seule tâche, mais un tout, et donc l’évaluer devient plus difficile. »
Comme Jacobs, Reuel estime également que « le principal problème de la référence est la validité, encore plus qu’une mise en œuvre pratique ». Dans des activités complexes telles que la programmation, il est presque impossible d’inclure un scénario possible dans l’ensemble de tests. Il est difficile de comprendre si un modèle obtient un score élevé pour une capacité réelle ou pour des compétences pour manipuler le test.
Les raccourcis d’agents ai
Sayash Kapoorinformaticien de Princeton, a critiqué l’approche des modèles à la référence Webarenaconçu par Carnegie Mellon pour tester la capacité de navigation Web. A identifié une astuce dans le modèle gagnant Étapequi a exploité la connaissance des URL de Reddit pour passer directement aux profils utilisateur.
« Une représentation déformée de la façon dont l’agent aurait fonctionné s’il avait vu la tâche de webarena pour la première fois », explique Kapoor. Malgré cela, l’astuce a également été repris par l’agent opérateur Web Openai. « Notre environnement d’évaluation est conçu pour évaluer la façon dont un agent parvient à résoudre les tâches, à partir de certaines instructions sur la structure des sites Web et sur l’exécution des tâches », a déclaré un porte-parole d’OpenII.
Aussi Arène de chatbotLe système d’évaluation open source le plus populaire a récemment été accusé de manipulations dans le classement, de tests privés non signés et de sélection de résultats.
Betterbench: le retour au béton
En novembre 2024, Reuel a lancé Bestbenchun classement public qui évalue la référence sur des dizaines de critères, y compris la disponibilité du code et, surtout, la validité. « Quelles sont les compétences concrètes qui vous intéressent et comment les transformer en quelque chose que nous pouvons mesurer? », Demande Reuel.
Résultats surprenants: la référence avec un score plus élevé est Arcade Learning Environment (ALE)à partir de 2013, qui mesure la capacité de jouer aux jeux vidéo Atari. Parmi les pires MMLUmalgré son utilisation large, pour une définition trop vague des compétences testées.
La validité comme fondation
En avril, Reuel a rejoint un nouveau groupe de recherche promu par Visage étreintUniversité d’Édimbourg et Eleis, pour développer le concept de validité dans l’évaluation des modèles. Irene SolaimanGlobal Manager of Hugging Face Policy, il a déclaré: « Il y a une énorme faim pour une référence prête à utiliser qui fonctionne déjà bien ». Mais beaucoup de référence aujourd’hui « essaient d’en faire trop ».
D’autres grands acteurs commencent également à changer la perspective: dans un article en mars, Google, Microsoft, Anthropic et d’autres offrent une nouvelle structure pour les évaluations, avec la validité comme point de départ. « La science de l’évaluation de l’IA doit aller au-delà des déclarations grossières sur l’intelligence générale » pour s’orienter vers des progrès plus spécifiques et pertinents pour le monde réel « , écrivent-ils.
Un changement de paradigme inspiré par les sciences sociales
Une position de février stipule que «l’évaluation des systèmes d’intelligence artificielle génératifs est un défi de mesurer les sciences sociales». Les auteurs – principalement de Microsoft Research, Stanford et Michigan – proposent d’utiliser les mêmes méthodes utilisées pour mesurer des concepts complexes tels que «idéologie» ou «démocratie».
Dans le contexte IA, cela signifie définir avec la rigueur ce que l’on entend, par exemple, par «les compétences de raisonnement» et la création de questions qui le reflètent vraiment. Pour Swe-Bench, cela impliquerait d’abandonner l’approche classique d’apprentissage automatique pour construire une structure conceptuelle claire avant même les tâches.
« Il y a un écart entre ce qui se passe dans l’industrie technologique et ces outils des sciences sociales », observe Jacobs. « Nous sommes des décennies de réflexion sur la façon de mesurer ces aspects insaisissables de l’être humain. »
Les progrès rapides perdent-ils tout?
Malgré l’intérêt académique croissant, les entreprises continuent de publier leurs modèles sur la base de généralistes de référence tels que MMLU.
Ethan Mollickprofesseur à l’école Wharton, résume la situation avec le pragmatisme: « Benchmark sont de mauvaises mesures des choses, mais ils sont aussi tout ce que nous avons ». Et il ajoute: « De nombreux péchés sont pardonnés par des progrès rapides ».
Pour l’instant, l’attention à l’intelligence générale artificielle continue de masquer des approches plus précises. « Il est trop facile de jeter le système, mais les évaluations sont vraiment utiles pour comprendre nos modèles, même avec ces limites », conclut Solaiman.