OpenAI lance O3-Mini, également gratuit. La réponse à Deepseek

OpenII sorti O3-minquelques jours après l’arrivée du modèle chinois Deepseek-R1 et de son « distillé ». OpenI O3-Mini est le modèle le plus récent et bon marché de la série de modèles de raisonnementDisponible à la fois en chatppt et en abeilles. Prévisual en décembre 2024, ce modèle dépasse les limites de ce que les petits modèles peuvent atteindreoffrant d’excellentes compétences STEM avec une force particulière dans les sciences, les mathématiques et le codage tout en maintenant le faible coût et la latence réduite de l’Openai O1-MinI.

Openi O3-MinI, trois niveaux de « effort de raisonnement »

OpenI O3-MinI est notre premier petit modèle de raisonnement qui prend en charge les fonctionnalités les plus demandées par les développeurs, tels que l’appel des fonctions, les sorties structurées et les messages des développeurs, ce qui le prépare immédiatement pour la production.

Comme OpenI O1-MINI et OpenAI O1-Preview, O3-MinI prendra en charge le streaming. De plus, pour la première fois les développeurs peuvent choisir entre Trois options de Effort de raisonnement – faible, moyen et élevé – pour optimiser leurs cas d’utilisation spécifiques. Cette flexibilité permet à O3-Mini de « penser plus intensément » lorsqu’il s’agit de défis complexes ou de donner la priorité à la vitesse lorsque la latence est un problème.

O3-Mini ne prend pas en charge les caractéristiques de visionpar conséquent, les développeurs devraient continuer à utiliser Openai O1 pour des activités de raisonnement visuel.

O3-MinI est en phase de lancement dans les abeilles d’achèvement des chats, dans les abeilles des assistants et dans les abeilles par lots pour certains développeurs sélectionnés dans les niveaux d’utilisation de l’API 3-5.

Pour Première fois un modèle de raisonnement disponible pour les utilisateurs gratuits de Chatgpt

Utilisateurs de Chatgpt Plus, Team et Pro Ils peuvent déjà accéder à OpenI O3-Mini, tout en accédant Entreprise arrivera d’ici février.

O3-MinI remplacera Openai O1-Mini dans le modèle Cueilleur, offrant des limites de vitesse plus élevées et une latence plus faible, ce qui le rend idéal pour Codage, activités STEM et résolution des problèmes logiques.

Dans le cadre de cette mise à jour, OpenII triple la limite de vitesse pour les utilisateurs de plus et d’équipe, passant à partir de 50 messages par jour avec O1-Mini à 150 messages par jour avec O3-MinI.

En outre, O3-Mini travaille avec la recherche pour trouver des réponses mises à jour avec des connexions de sources Web pertinentes. C’est un premier prototype.

Utilisateurs du sol gratuit Ils peuvent essayer OpenI O3-MinI en sélectionnant « Raison » dans le compositeur des messages ou régénérer une réponse. C’est la première fois qu’un modèle de raisonnement est mis à la disposition des utilisateurs gratuits de Chatgpt.

Les utilisateurs fixes ont la possibilité de sélectionner O3-MinI-High

Alors qu’Openai O1 reste le plus grand modèle de connaissances générales, OpenI O3-Mini fournit une alternative spécialisée pour les domaines techniques qui nécessitent une précision et une vitesse. Dans Chatgpt, O3-Mini utilise un effort de raisonnement moyen pour fournir un compromis équilibré entre la vitesse et la précision. Tous les utilisateurs rémunérés auront également la possibilité de sélectionner O3-MinI-High Dans Model Picker pour une version d’intelligence supérieure qui prend un peu plus de temps pour générer des réponses. Les utilisateurs Pro auront un accès illimité à O3-MinI et O3-MinI-High.

OpenI O3-MinI est optimisé pour le raisonnement en tige

Comme son prédécesseur Openai O1, OpenII O3-Mini était Optimisé pour le raisonnement des tiges. O3-min, avec un effort de raisonnement moyen, Il est égal à la performance de l’O1 en mathématiques, codage et science, fournissant des réponses plus rapides. Des évaluations de testeurs expertes ont montré que O3-MinI produit des réponses plus précises et plus claires, avec une capacité de raisonnement plus forte, par rapport à Openai O1-MinI. Les testeurs ont préféré les réponses d’O3-MinI à celles d’O1-MINI dans 56% des cas et ont observé une réduction de 39% des principales erreurs sur les questions difficiles du monde réel. Avec un effort de raisonnement moyen, O3-Mini est égal aux services d’O1 dans certaines des évaluations de raisonnement et de renseignement les plus exigeantes, y compris l’AIME et le GPQA.

Concours mathématique (AIME 2024)

Questions scientifiques au niveau du doctorat (GPQA Diamond)

Frontitierhath

Code de concurrence (Forces de code)

Génie logiciel (SWE-Bench vérifié)

Codage en direct

Connaissances générales

Évaluation des préférences humaines

Vitesse du modèle et performances

Avec une intelligence comparable à celle d’Openai O1, Openai O3-Mini offre des performances plus rapides et une plus grande efficacité. En plus des évaluations STEM mises en évidence ci-dessus, O3-MinI montre des résultats plus élevés dans d’autres évaluations mathématiques et factualité avec un effort de raisonnement moyen.

Dans les tests A / B, O3-MINI a fourni des réponses plus rapides de 24% que O1-MINI, avec un temps de réponse moyen de 7,7 secondes contre 10,16 secondes.

Comparaison de la latence entre O1-MinI et O3-MinI (moyenne)

Sécurité

L’une des techniques clés utilisées pour enseigner Openai O3-Mini pour répondre en toute sécurité est lealignement délibératifdans lequel le modèle a été formé pour réfléchir aux spécifications de sécurité écrites par l’homme avant de répondre aux demandes de l’utilisateur. Comme Openai O1, il a été découvert que O3-Mini dépasse considérablement le GPT-4O dans les évaluations de sécurité et de jailbreak. Avant la distribution, les risques de sécurité d’O3-MINI ont été soigneusement évalués en utilisant la même approche de préparation, les évaluations externes de thématisation rouge et de sécurité de l’O1.

Les détails des évaluations qui suivent, ainsi qu’une explication complète des risques potentiels et de l’efficacité des atténuations, sont disponibles dans le Carte système de O3-MinI.

Évaluations du contenu non autorisé

Évaluations de jailbreak

La réponse d’Openai aux modèles de raisonnement chinois « bon marché »

La libération d’Openai O3-Mini marque un autre pas en avant dans la mission Openai pour surmonter les frontières de«Intelligence à faible coût. Ce modèle continue La voie de la réduction du coût des prix de réduction de l’intelligence pour les jetons à 95% par rapport au lancement de GPT-4 – Tout en maintenant une capacité de raisonnement de niveau élevé.

Avec O3-MinI, Openai voulait démontrer qu’il n’est pas sans les Chinois de Deepseel et Alibaba pour développer de petits modèles de raisonnement et des performances élevées. La concurrence entre les États-Unis et la Chine sur le devant de la langue et les modèles de raisonnement devient de plus en plus féroce.