Nous ne savons pas ce que les repères de l'IA mesurent. Nous avons donc parlé aux Espagnols qui ont créé l'un des plus difficiles

Nous ne savons pas ce que les repères de l’IA mesurent. Nous avons donc parlé aux Espagnols qui ont créé l’un des plus difficiles

Gemini 2.5 Pro est le meilleur modèle de l’histoire. Le plus intelligent. Du moins, en ce moment. Je ne le dis pas, dit la classification de Chatbot Arena, une plate-forme dans laquelle ils courent Divers tests ou repères pour essayer de mesurer la capacité mondiale des modèles d’IA modernes.

Selon ces tests, à cette époque Gemini 2.5 Pro expérimentale, lancé le 25 mars, a un score de 1 440 points, assez au-dessus du GPT-4O (1 406), Grok 3 (1 404), GPT-4,5 (1 398) et bien sûr qu’un R1 de Deepseek qui, malgré sa célébrité, est en septième place avec un score de 1 359 points.

Capture d'écran 2025 04 04 à 15 11 05

Dans le classement actuel de Chatbot Arena, il place Gemini Pro 2.5 expérimental comme le modèle le plus capable de l’IA en ce moment. Cela (probablement) ne dure pas longtemps.

Google elle-même a présumé la capacité de Gemini 2.5 Pro expérimental dans l’annonce officielle. Comme cela se produit habituellement dans ces annonces, les entreprises montrent un tableau dans lequel ils comparent leurs performances avec celles d’autres modèles comparables dans différents tests.

Dans presque tous, Google a écrasé leurs rivaux dans des tests bien connus dans ce segment. Par exemple, l’humanité est l’examen (connaissances générales et raisonnement), GPQA Diamond (science), AIME 2025 (mathématiques), Livecodebench V5 et Swe-Bench vérifié (programmation) ou MMMU (raisonnement visuel).

Avant de parler de l'intelligence artificielle ... qu'est-ce que l'intelligence?

Tous ces repères essaient de mesurer la capacité de ces modèles dans des champs plus ou moins spécifiques, et tous aident à démontrer que les modèles, en effet, s’améliorent. Et pourtant, aucun d’entre eux ne répond à la question fondamentale:

Est l’AI Si intelligent Comme l’être humain?

Il y a le vraiment compliqué, car la définition de l’intelligence n’est pas non plus claire non plus. Il existe différents types d’intelligence, en fait, et les mesurer chez l’homme n’est pas simple ni même possible non plus. Et comparer la capacité d’une IA avec la capacité de l’intelligence humaine n’est généralement pas facile.

Certains experts se demandent si les laboratoires IA ne tricheront pas avec les repères

Il y a en fait qui soutient que la progression des modèles d’IA est trompeuse. Dean Valentine l’a fait récemment, de la startup Zeroopath. Lui et son équipe ont créé un système d’IA qui analyse de grands projets de code à la recherche de problèmes de sécurité. Avec Claude 3.5, Sonnet a remarqué un grand saut, mais à partir de là, les versions suivantes ont semblé beaucoup moins frappantes.

En fait, cet expert a souligné qu’aujourd’hui, de nombreuses entreprises qui lancent ces modèles se concentrent trop sur la photo des références existantes et les plus populaires et « Sound Intelligent » dans les conversations avec les êtres humains. Se demande si les laboratoires d’AIS trichent et mentent: Pour lui, l’évolution montrée par les repères ne correspond pas aux avantages réels lors de leur utilisation.

Frontitierath et le défi de résoudre des problèmes que (presque) personne n’a résolu

Mais il y a des tentatives de répondre à cette question. L’un d’eux vient de l’équipe qui développe le projet ARC-AGI 2, un ensemble de tests qui dérivent du paradoxe Moravec: ils sont relativement faciles pour l’être humain, mais très difficiles pour les modèles d’IA.

Séville
Séville

Jaime Sevilla, PDG d’Epoch AI.

Ces tests mesurent la capacité de généraliser et de résumer le raisonnement avec des puzzles visuels, et sont sans aucun doute une partie intéressante de cet effort pour valoriser le chemin parcouru à chaque instant avec les modèles d’IA.

Frontitiermath est un autre des tests les plus frappants des temps récents. Cette référence créée par la société Cophai se compose d’environ 300 problèmes mathématiques de niveau différent.

Ils ont été conçus par une équipe de plus de 60 mathématiciens parmi lesquels Terence Tao, vainqueur de la médaille des champs. Bien qu’il y ait des problèmes plus abordables, 25% d’entre eux sont qualifiés comme particulièrement complexes. En fait, seuls les meilleurs experts pourraient les résoudre et Ça prendrait même des jours Ce faisant.

Nous avons un problème d'IA: il n'y a pas de moyen fiable de savoir si le chatppt est meilleur que Gemini, Copilot ou Claude

Cet ensemble de tests est également spécial pour un autre aspect: ce sont des problèmes non publiés et n’ont donc pas fait partie des ensembles de formation d’un modèle d’IA. Pour les résoudre, les machines doivent être en mesure de montrer une «intelligence mathématique» spéciale. Celui qui aide précisément à quelque chose de de plus en plus difficile: évaluer l’évolution de ces modèles.

À Simseo, nous avons pu parler à Jaime Sevilla (@Jsevillamol), qui est précisément le PDG de Cophaï et a une vision très claire et personnelle de la façon dont les tests devraient être de mesurer la capacité d’un modèle d’IA.

Pour commencer, il souligne-t-il: « Vous devez avoir un moyen de mesurer la façon dont l’IA progresse. L’interaction avec cela peut vous donner une perspective, mais vous n’avez pas une impression rigoureuse de l’endroit où il arrivera et dans quels domaines il est le plus expert. »

Jsevilla
Jsevilla

Cela, explique-t-il, rend nécessaire d’avoir des batteries de test standardisées qui nous permettent de former une idée de leurs compétences. Pour cet expert, l’arc-AGI de référence est plus représentatif de cette autre vision, ce qui rend une référence facile pour les humains mais difficile pour l’IA.

Les modèles s’améliorent dans ARC-AGI, mais pour lui, c’était évident et cela devait se produire. Avec les vôtres, les tests sont difficiles les uns pour les autres et que les modèles avancent et sont de plus en plus meilleurs lors de la résolution de ces problèmes n’est pas si évident.

Ainsi, avec Frontitiermath, ils voulaient « essayer de mesurer si l’IA peut résoudre des problèmes vraiment difficiles ». Jusqu’à présent, les problèmes mathématiques soumis aux modèles d’IA étaient relativement faciles, donc les modèles « ont saturé les repères », c’est-à-dire qu’ils ont rapidement réussi à surmonter tous ces tests et à atteindre un score de 100%. « Ce sera un défi de saturer cette référence« Il a souligné.

Ici, j’ai donné un exemple avec le modèle O3-MinI d’OpenAI, qui résout déjà 10% de FrontitierArt. Ce n’est pas grand-chose, mais c’est brutal, dit-il, et a déjà dépassé les mathématiciens experts comme lui. Cependant, dit-il,

« Le fait que l’IA surmonte certains repères ne signifie pas qu’il peut fonctionner comme un expert humain. Vous devez les ajuster car ils sont ajustés à des scénarios très spécifiques. Nous mesurons ces limites de cette IA, et ce sera un processus continu. »

Pour Séville, il existe un domaine particulièrement important dans lequel mesurer cette performance: dans le comportement géghentique de l’IA. Dans sa capacité à travailler à distance et autonome. Ici, les exemples les plus clairs de systèmes qui y parviennent sont l’utilisation d’ordinateurs, à partir de l’anthropique et de l’opérateur d’OpenAI.

"Téléphone, viens ma vie": l

Ici, il y a une référence particulièrement remarquable qui est OSWORLD. Essayez de mesurer si ces agents peuvent résoudre des tâches, bien que « pour l’instant il soit très basique », explique Séville. Cela n’a pas d’importance, car comme il le souligne, c’est l’évolution habituelle de ces développements.

« Le cycle de référence au début ne résout rien », explique Séville. « Ensuite, il y a un point où quelque chose commence à faire, et là vous entrez dans la partie linéaire du sigmoïde, vous y voyez des améliorations relativement prévisibles, car les modèles montent que vous pouvez améliorer jusqu’à ce que la référence soit saturée. »

Nous lui avons également posé des questions sur le débat sur l’escalade et si je consacre actuellement plus d’argent, plus de GPU et plus de données pour former des modèles d’IA. Ces derniers temps, on parle de la façon dont les modèles d’IA ne progressent plus apparemment, mais pour lui, la stratégie de mise à l’échelle a encore beaucoup de sens.

« Nous n’avons pas suffisamment de preuves pour montrer que les tendances de mise à l’échelle sont mortes. Si vous formez plus de calcul, vous obtiendrez de meilleurs résultats. »

« Nous avons toujours assimilé que nous devons consacrer de nombreuses ressources à des améliorations », a-t-il déclaré. Lui et son équipe à Epoch IA ont observé comment la relation historique entre les ressources dédiées et l’amélioration a obtenue C’était « nous nous attendions »bien que cela indique que cette amélioration « a peut-être été un peu décevante dans les modèles sans raisonnement », où l’avance n’a pas été aussi claire.

Cependant, souligne-t-il, « Alphago a déjà utilisé plus de temps d’inférence, il a été constaté que la rasoition fonctionne ». À son avis, « Nous n’avons pas suffisamment de preuves qui démontrent que les tendances d’escalade sont mortes. Si vous vous entraînez plus informatique, vous obtiendrez de meilleurs résultats », conclut-il.

« L’IA ne pense pas comme nous »

S’il y a une chose claire pour cet expert est que « il est évident que AI ne pense pas comme nous. Il nous donne mille tours dans la connaissance de la médecine ou de la biologie, par exemple, et réalise des progrès notables dans des domaines tels que les mathématiques ou la programmation. « Cependant, il explique: » Il n’est pas si bon de jouer à Pokémon, par exemple. « 

Repères
Repères

La performance de l’IA dans les problèmes mathématiques avancés reste faible: O3-MinI, celui qui fait le mieux, ne résout que 11% de ces problèmes. Source: Epoch Ai.

Pour Séville, « ce que je vois, c’est qu’il avance dans d’autres choses. La comparaison avec l’intelligence humaine n’est pas exacte parce que les champs dans lesquels l’IA s’améliorera sont des champs dans lesquels l’être humain n’a pas évolué. Je pense que l’IA s’améliorera beaucoup plus rapidement en mathématiques ou en ingeneria qui dans la robotique ou le contrôle moteur, par exemple. »

Séville a cité une récente étude METR dans laquelle la capacité de l’IA tentait de mesurer en termes de durée des tâches que l’IA pouvait effectuer. Ses conclusions ont révélé comment il y a une tendance claire qui indique que Les modèles IA s’améliorent de manière prévisible.

Capture d'écran 2025 04 07 à 10 12 51
Capture d'écran 2025 04 07 à 10 12 51

Dans ce graphique de l’étude METR, « la durée des tâches (mesurées au moment où les professionnels humains prennent) que les agents de l’IA peuvent effectuer avec une fiabilité de 50%. Cette durée a doublé environ 7 mois au cours des 6 dernières années. »

Et comme ils le soulignent, « Même si les mesures absolues s’écartent dans un facteur de 10, la tendance prédit qu’en moins d’une décennie, nous verrons des agents capables de terminer indépendamment une grande partie des tâches logicielles qui conduisent actuellement à des jours ou à des semaines. »

« L’IA régurgite non seulement ce que vous avez appris pendant la formation, mais les combine de manière nouvelle. »

Il y a un autre débat que nous voulions sauver l’opinion de Jaime Sevilla. C’est cette déclaration qui a également discuté du temps: l’IAS ne génère pas de nouvelles connaissances, ils ne combinent que toutes les données avec lesquelles ils ont été formés pour « régurgiter » leurs réponses.

Séville a ri en parlant de cela et nous a demandé « Selon vous, quelle est l’intelligence?« Pour lui, c’est aussi ce que font les êtres humains. En fait, dit-il, Frontimermath montre précisément que » non seulement régurgite ce qu’il a appris pendant la formation, mais les combine également de manière nouvelle. « 

Sa conclusion était également très optimiste quant à l’avenir de l’IA. Pour le rythme qui évolue et avec les ressources qui sont dédiées, sa vision est claire: « entre GPT-2 et GPT-4, il y a une différence de 10 000 fois plus de calcul », et cela signifiait une amélioration des avantages extraordinaires entre les deux modèles.

Nous suivons la même ligne d’utilisations dédiées, donc selon lui « À la fin de la décennie, nous verrons un saut similaire« Entre GPT-4 et ce que nous avons à la fin de cette période. » Il ne parlait pas spécifiquement d’AGI, mais il a clairement indiqué que l’avance sera tout aussi spectaculaire. Et il y aura des repères comme Frontitiermath pour nous montrer ce saut.

Dans Simseo | L’un des pionniers de l’IA a jeté un coup d’œil à l’IA générative actuelle et est parvenu à une conclusion: c’est Tontal