Ses modèles de raisonnement font enfin ce que jusqu'à présent leur était impossible

Pendant plus d’un demi-année, les utilisateurs de ChatGPT – et également ceux de l’accès à API à deux types de modèles: des modèles GPT, tels que GPT-4O, et des modèles orientés raisonnement, tels que O1. Le problème est que, jusqu’à présent, nous avons été obligés d’alterner entre eux pour des tâches qui nécessitent une réflexion complexe, une navigation sur le Web ou une interprétation des images. À ce jour, cela commence à changer.

De nouveaux modèles sur scène. Les modèles O3 et O4-Mini, présentés mercredi, raccourcissent les distances avec les modèles GPT. Pour la première fois, les modèles concentrés sur le raisonnement accèdent aux outils qui, jusqu’à présent, étaient exclusifs aux modèles classiques. À savoir:

Analyser les images (et réfléchir avec eux).
Analyser les fichiers.
Générer des images.
Naviguer sur le Web.
Faire des recherches.
Utilisez le mode vocal avancé.

Les clés du « raisonnement visuel ». La chose intéressante n’est pas que O3 lise ce qui est sur une photo. Il décide de la regarder. Il sait s’il doit le tourner, développer un détail ou ignorer les non-pertinents. Ce processus fait désormais partie de sa chaîne de raisonnement. Il ne décrit pas une image, mais «y réfléchit» pour nous donner une meilleure réponse.

Analyse des images

Un saut remarquable. Nous sommes confrontés à une série d’améliorations que les utilisateurs les plus exigeants sauront sans aucun doute apprécier. Les modèles de raisonnement, il faut se rappeler, « pensez » avant de répondre. Ils génèrent une chaîne de pensées interne avant de nous offrir une réponse.

Ils ne sont pas la meilleure option pour ceux qui recherchent des textes avec des colorants littéraires ou des réponses rapides sur n’importe quel sujet. Mais ils sont idéaux pour le codage, le raisonnement scientifiquement et la planification des flux de travail complexes, en particulier dans les environnements où plusieurs étapes et agents interviennent.

En tenant compte de cela, et comme prévu, OpenAI a également amélioré les principales capacités de ces modèles, ce qui les rend plus capables et précises.

OpenAI O3: Ce modèle réalise une performance importante dans SWE-Bench vérifié (sans personnalisation), un test qui mesure les compétences en codage, avec un score de 69,1%. Selon OpenAI, dans les évaluations réalisées par des experts externes, O3 fait 20% des erreurs moins importantes qui Openai O1 dans les tâches réelles difficiles.
Openai O4-MinI: Il offre un rendement similaire, avec un score de 68,1%. Pour le mettre en contexte: O3-MinI a obtenu 49,3% dans le même test, tandis que Claude 3.7 Sonnet a atteint 62,3%. Ce modèle est optimisé pour un raisonnement rapide et rentable, et donne particulièrement bien les tâches mathématiques, codantes et visuelles.

Le modèle qui n’allait pas lancer. Openai a changé d’avis. En février, Sam Altman a exclu le lancement de l’O3 en tant que produit indépendant. Mais il y a quelques semaines à peine, il a admis un «changement de plans». Ce tour se matérialise aujourd’hui avec l’arrivée de O3 et O4-Mini, les nouveaux modèles qui marquent un nouveau chapitre de la stratégie de l’entreprise.

Sur le chemin de chatgpt. À partir d’aujourd’hui, Chatgpt Plus, les utilisateurs Pro et Team peuvent commencer à utiliser O3 et O4-MinI. Dans les semaines à venir, O3-Pro arrivera, une version plus puissante du modèle de raisonnement, qui sera disponible pour les abonnés du plan Pro. Pendant ce temps, ces utilisateurs peuvent continuer à travailler avec O1-Pro.

Images | Openai

Dans Simseo | Le réseau social hypothétique d’Openai ne veut pas connecter les gens. Je veux que vos données forment votre IA