Les IA deviennent très intelligentes. Et créer des tests pour les mettre sur le terrain devient de plus en plus difficile.
Le modèle o3 d'OpenAI est trop intelligent. Du moins, pour les tests et benchmarks conçus jusqu’à présent. En programmation, en mathématiques et en raisonnement, cela va là où aucun autre modèle d’IA n’est allé auparavant, ce qui a montré que nous avons besoin de nouvelles façons de tester l’IA. Et c'est là que se trouvent les experts.
Les examens normaux ont échoué. Début 2023, ChatGPT était déjà en mesure de réussir les examens de droit et ceux d'un MBA, mais avec un échec. Comme le souligne Time, près de deux ans plus tard, les progrès des modèles sont si énormes que les tests conçus pour les humains ont échoué, tout comme les critères qui étaient jusqu'à présent utilisés pour évaluer leurs performances. C’était quelque chose que l’on pouvait déjà voir venir.
Une évolution vertigineuse. En 2010, le professeur Fei-Fei Li de Stanford a développé une référence pour la classification d'images appelée ImageNet Large Scale Visual Recognition Challenge. Cinq ans plus tard, un système de vision artificielle a réussi à relever le défi. En 2017, DeepMind a réussi à écraser le meilleur joueur de Go au monde avec AlphaGo et nous a rappelé l'étape marquante de DeepBlue. Il semblait que de tels défis mettraient plus de temps à être surmontés par les machines, mais l’évolution des systèmes d’IA a été frénétique, et maintenant les modèles d’IA modernes s’améliorent de manière encore plus vertigineuse.
FrontièreMaths. Epoch AI, une ONG de recherche, a fini par développer, par exemple, un nouvel ensemble de tests mathématiques appelé FrontierMath. Jusqu’à tout récemment, les modèles d’IA comme GPT-4 ou Claude ne dépassaient pas les 2% dans ce test, une performance qui montrait qu’il y avait encore beaucoup de marge de progression. Le lancement d'o3 a changé les choses : il a soudainement atteint une performance de 25,2 %, ce que Jaime Sevilla, directeur d'Epoch AI, a décrit comme « bien meilleur que ce à quoi notre équipe s'attendait si peu de temps après son lancement ».
![Frontiermath par rapport à d'autres références](https://simseo.fr/wp-content/uploads/2024/12/Les-IA-deviennent-tres-intelligentes-Et-creer-des-tests-pour.png)
![Frontiermath par rapport à d'autres références](https://simseo.fr/wp-content/uploads/2024/12/Les-IA-deviennent-tres-intelligentes-Et-creer-des-tests-pour.png)
Les modèles d’IA ont surpassé avec succès les références mathématiques précédentes. Avec FrontierMath, les choses changent. Du moins, pour l'instant, car o3 atteint déjà un score de 25,2% (ce diagramme n'est pas présenté, là où les modèles n'ont réussi qu'à atteindre 2%). Source : Époque AI.
Des tests plus exigeants. Ce benchmark se compose d'environ 300 problèmes mathématiques de différents niveaux. Ils ont été conçus par une équipe de plus de 60 mathématiciens dont Terence Tao, lauréat de la médaille Fields. Bien qu'il existe des problèmes plus accessibles, 25 % d'entre eux sont classés comme particulièrement complexes. En fait, seuls les meilleurs experts pourraient les résoudre, et cela prendrait même des jours.
Le dernier examen de l'humanité. Un autre test récent est Humanity's Last Exam, un examen comportant 20 à 50 fois plus de questions que FrontierMath, mais couvrant beaucoup plus de disciplines. Les problèmes à résoudre ont été collectés auprès de la communauté universitaire, et pour être inclus, une question doit n'avoir pas reçu de réponse correcte par les modèles actuels. Un tel test devrait être lancé début 2025.
Le paradoxe de Moravec. Mais tout aussi intéressants ou plus intéressants que ces tests avancés sont ceux qui jouent avec le concept qui gère le paradoxe de Moravec. Des choses qui sont triviales pour les humains mais que les machines ne peuvent pas résoudre.
ARC-AGI. C'est exactement ce que fait le benchmark ARC-AGI, créé par le chercheur François Chollet en 2019 et qui dans sa dernière évolution pose des tests avec lesquels la plupart des modèles passent un très mauvais moment. O1 mini n'a obtenu qu'un score de 7,8%, mais une fois de plus o3 a surpris tout le monde et atteint 87,5% dans son mode le plus avancé (très cher) et 75,7% en mode basse consommation, un cap vraiment exceptionnel. Bien entendu, les créateurs d’ARC-AGI travaillent déjà sur une nouvelle version, beaucoup plus exigeante, qui, selon eux, mettra beaucoup de temps à être surmontée par les modèles d’IA.
Images | Crymedy7 avec Midjourney
À Simseo | OpenAI brûle de l'argent comme s'il n'y avait pas de lendemain. La question est combien de temps peut-il tenir ainsi ?