o3 obtient des scores aussi élevés que les programmeurs humains en matière de raisonnement et d'abstraction. C'est exactement ce dont OpenAI a besoin

Le lancement d'o3 vendredi dernier est peut-être passé quelque peu inaperçu dans l'avalanche de lancements d'OpenAI. En partie parce qu'il est apparu peut-être trop rapidement – o1 n'est sorti que trois mois plus tôt – et en partie parce qu'il n'est pas encore accessible au public. Et pourtant, tout ce qui nous arrive nous fait penser que nous sommes face à un modèle bien particulier.

Prudence et attentes dans OpenAI. Curieusement, dans OpenAI le discours est relativement modéré. Sam Altman a parlé encore plus de o3-mini, la version réduite, avec une latence et un coût inférieurs, de o3. Selon lui, ce sera une véritable merveille à programmer. Il a retweeté un message de l'un des chercheurs d'OpenAI, Nat McAleese, qui a souligné dans un fil de discussion ses excellentes performances lors des tests. Il a qualifié le modèle résultant de « très, très impressionnant ».

Suédois

Source : Le pont algorithmique

Programmation. Jusqu'à il n'y a pas si longtemps, nous pensions que GPT-4o était bien programmé. Dans le benchmark SWE-bench Verified, avec des questions typiques des ingénieurs logiciels, ce modèle a obtenu un score de 31 %. Comme indiqué dans The Algorithmic Bridge, avec o1 il est possible d'atteindre 31%, mais attention, car Claude Sonnet 3.5 atteint 50,8% et Gemini 2.0 Flash 51,8%. Ce sont des scores fantastiques, mais o3 atteint 71,7 %. Il s’agit d’un bond tout simplement extraordinaire, jamais vu auparavant dans ce type d’indice de référence.

Mais il y a encore plus. Il existe une autre référence frappante : le test Codeforces, qui se concentre sur des tests de programmation « compétitifs », attribuant un ELO aux programmeurs – humains ou machines – qui réussissent ces tests. OpenAI a obtenu 2 727 points avec o3, le score qui dans le classement actuel occuperait la position 175 : il n'y a que ces programmeurs – parmi ceux qui ont passé le test – qui dépassent le niveau de ce modèle en matière de programmation. Deepmind Alphacode 2, qui a été spécialement formé à cet effet et sorti en décembre 2023, se situait dans le 87e centile O3 et dans le 99,7e centile.

Docteur en sciences. En juin, Claude Sonnet 3.5 et GPT-40 dépassaient à peine les 50 % au test de questions scientifiques GPQA Diamond. O1 atteint 78 %, mais o3 a déjà atteint 87,7 %. Le niveau de doctorat se situe généralement autour de 70 % en moyenne.

Un génie mathématique. En mathématiques, les tests étaient quelque peu obsolètes, mais une société appelée Epoch AI a créé un nouveau benchmark appelé FrontierMath qui est si difficile que même les meilleurs mathématiciens pensent qu'il ne peut pas être facilement surpassé par l'IA. Terence Tao, lauréat de la médaille Fields en 2006 (« le Nobel des mathématiques »), a indiqué qu'il faudrait plusieurs années à l'IA pour les surpasser. Eh bien, jusqu'à présent, les modèles d'IA les plus avancés (à la pointe de la technologie) obtenaient au maximum 2 % dans ce test, mais o3 a atteint 25,2 %.

Nous avons un problème avec l'IA : il n'existe aucun moyen fiable de savoir si ChatGPT est meilleur que Gemini, Copilot ou Claude

Et puis il y a ARC-AGI. Cependant, le plus prometteur des tests est ARC-AGI, un benchmark initialement créé par François Chollet en 2019 et qui est devenu la référence qui démontre le paradoxe de Moravec. Ce sont des tests qui semblent triviaux pour les humains, mais que les machines ne peuvent normalement pas résoudre. Chollet est le créateur du Prix ARC, un concours qui mesure « l'intelligence » entendue comme « la capacité d'un système à s'adapter à de nouveaux problèmes qu'il n'a pas rencontrés auparavant et que ses créateurs (les développeurs) n'ont pas anticipés ».

Capture d'écran 2024 12 23 Au 16 48 06

o3 est très, très bon en ARC-AGI. GPT-3 en 2020 a obtenu un score de 0 % et GPT-4o a obtenu 5 % dans ledit test. Avec o1, il y a déjà eu un bond incroyable en atteignant 32 %, mais o3 a atteint un incroyable 87,5 % (bien sûr, au prix de milliers de dollars par tâche) et 75,7 % en mode « low » computing » (20 $ par tâche). ).

Est-ce une AGI ? La question que certains se posent est de savoir si cela permet à o3 d’être qualifié d’intelligence artificielle générale (AGI). Chollet ne le pense pas et explique en fait que o3 a encore des tâches triviales non résolues pour les humains, mais ils travaillent sur une deuxième version d'ARC-AGI-2 qui, selon lui, « continuera à être extrêmement difficile » pour o3.

Tout à confirmer. Les benchmarks ont le problème d’être simplement cela : des benchmarks. Des tests synthétiques qui s'adaptent à des situations très spécifiques et qui peuvent ne pas être très fiables comme mesure des performances dans l'utilisation quotidienne de ces modèles. Et pourtant, sachant à quel point o1, Claude 3.5 Sonnet ou Gemini 2.0 Flash sont déjà performants dans des domaines comme la programmation, les résultats d'o3 sont vraiment prometteurs. Et ce n’est pas tout : l’évolution de ces modèles de raisonnement est particulièrement frénétique, comme en témoigne le fait que o3 est apparu seulement trois mois après o1.

OpenAI envisage une restructuration audacieuse : s'affranchir du contrôle de son organisation à but non lucratif, selon Reuters

Et le prix, quoi ? D'après ce que souligne Chollet, le prix d'o3 sera astronomique si l'on veut l'utiliser avec toutes ses fonctionnalités, et il est possible qu'il s'agisse d'une version très spéciale du service qu'OpenAI ne proposera que dans des domaines très spécifiques. Mais il semble que o3-mini sera beaucoup plus abordable et efficace, nous pouvons donc nous attendre à ce que ce que vous payez désormais pour o1 illimité avec l'abonnement ChatGPT Pro (200 $ par mois) soit ce que l'accès à o3 finira par coûter mini. OpenAI devrait le proposer au premier trimestre 2025, et aussi que d'autres modèles de ce type rivaliseront avec o3-mini et o3 d'ici là.

Une IA plus précise, efficace et performante que jamais. Ce que tout cela soulève, c'est l'accès à des modèles d'IA plus efficaces et encore moins chers que jamais si nous voulons résoudre certains types de problèmes. Il semble que les programmeurs et les chercheurs disposent d’un outil prometteur dans ces modèles, mais il semble qu’a priori nous aurons au moins deux aspects majeurs de l’IA. D'une part, les ChatGPT/Gemini/Claude actuels et leurs évolutions, davantage destinés à une utilisation rapide et avec une certaine tolérance aux erreurs. En revanche, les modèles qui « raisonnent » comme o1 ou o3, plus chers, précis et plus longs à répondre mais sont très puissants dans certains domaines.

OpenAI fait bien de se diversifier. Et c’est exactement pourquoi OpenAI dispose d’un moyen intéressant d’attaquer le marché avec différents modèles pour différents besoins. Cela vous permettra également d’établir différents forfaits et tarifs – nous avons déjà vu comment vous envisagez d’augmenter le prix des abonnements – et de les justifier précisément avec un accès à chacun. Une stratégie raisonnable qui peut certainement aboutir à atteindre quelque chose dont vous avez besoin à tout prix : un revenu.

À Simseo | Sam Altman se présente comme le Zuckerberg de l'IA : il est de plus en plus seul, et c'est à lui de décider si OpenAI réussit ou échoue