annonce o3 et o3 mini après le lancement du Gemini Thinking Mode
La concurrence entre OpenAI et d’autres entreprises dans le domaine de intelligence artificielle (IA) est une guerre totale. Le lancement de ChatGPT en novembre 2022 a marqué un tournant dans cette industrie devenue beaucoup plus compétitive. Depuis, Google tente de reconquérir son leadership, mais la firme dirigée par Sam Altman ne lui laisse pas de répit.
Ces dernières années, nous avons vu comment le géant de la recherche et la startup soutenue par Microsoft ont mesuré leur force lancement après lancement. Cette semaine, Google a présenté le « Gemini 2.0 Flash Thinking Mode », un pari qui semble finalement à la hauteur du modèle o1 d'OpenAI. Eh bien, les nouveaux modèles o3 et o3 mini d'OpenAI viennent d'apparaître sur la scène.
OpenAI présente ses nouveaux modèles de raisonnement
La dernière nouveauté des créateurs de ChatGPT est capable de proposer un niveau de raisonnement plus poussé que la version initiale. Comme le modèle o1 que nous avons rencontré en septembre de cette année, le nouveau modèle passera du temps « penser » la réponse. Il ne sera pas aussi rapide que les versions GPT, mais son avantage est qu'il pourra résoudre des problèmes plus complexes en plusieurs étapes.
Certes, les modèles de raisonnement sont idéaux pour tout. En fait, le domaine de l’IA se développe tellement qu’il existe des alternatives orientées cas d’utilisation. Par exemple, si nous recherchions un modèle de réponse rapide pour alimenter un chatbot de service client, nous ne choisirions pas o3, mais quelque chose comme GPT-4o mini. Si nous recherchons de la précision en physique et en mathématiques, o3 peut être le bon choix.
Une manière intéressante d’analyser la portée et les possibilités d’un modèle est de le considérer à la lumière de benchmarks. Lors de la présentation, OpenAI a présenté deux benchmarks de programmation. Comme nous pouvons le voir sur les images, o3 s'améliore en o1 de 22,8 points de pourcentage dans SWE-Bench vérifié. Dans ce benchmark, il atteint 71,7 points contre 84,9 pour le modèle précédent.
Dans Codeforces, o1 obtient un score de 1891 et o3 2727. Comme on dit, ces modèles sont utiles pour de nombreuses tâches complexes. Si l’on se concentre sur les repères mathématiques, lors de l’American Invitational Mathematics Exam 2024, o1 enregistre un score de 83,3 %. o3, pour sa part, affiche un 96,7%, échouant à une seule question.
Il convient de noter que la décision d'appeler le modèle o3 au lieu de o2 ne semble avoir rien à voir avec un bond dans ses capacités (ou une décision motivée par le marketing). En fait, selon The Information, cela est dû au fait d'éviter problèmes de marque. OpenAI aurait décidé de sauter un chiffre car o2 est une marque déposée d'un fournisseur de télécommunications britannique.
Il faudra attendre pour accéder au nouveau modèle de raisonnement phare d'OpenAI, o3, ainsi qu'à son modèle plus petit et plus rapide, o3 mini. Pour l’instant, les chercheurs en sécurité peuvent s’inscrire sur une liste d’attente pour tester le modèle. La société espère les lancer au public plus tard, mais on ne sait pas quand ils finiront par arriver (et si sous quels abonnements).
Images | Simseo avec DALL·E 3
À Simseo | Apple ne peut pas proposer ChatGPT en Chine. Plus qu'un problème, c'est une bénédiction