OpenAIo1-mini, le modèle de raisonnement qui « réfléchit » le plus longtemps
Après avoir publié une première version du modèle de raisonnement o1, o1-aperçula semaine dernière, OpenAI a lancé la version plus petite mais plus rapide du modèle, o1-mini. Des détails intéressants ressortent sur ce nouveau modèle.
Selon les développeurs qui ont évalué et partagé des exemples, o1-mini est encore meilleur que o1-preview en mathématiques. Et il est généralement à égalité dans la plupart des autres aspects, notamment «invites difficiles »ou des demandes particulièrement complexes, selon le dernier rapport Lmsys. Classement Lmsys o1-mini à la troisième place, derrière o1-preview et le modèle phare de l'entreprise, GPT-4o.
o1-mini peut également être plus performant en matière d'encodage
OpenAI lui-même a déclaré que o1-mini il peut également être plus performant que son frère aîné dans les tâches de codagece qui est important car le codage est l’application la plus populaire des grands modèles de langage.
L'une des raisons des performances relativement puissantes de l'o1-mini est que OpenAI permet aux clients d'utiliser plus de jetons lorsqu'on lui pose des questions, par rapport à o1-preview. En effet, la petite taille d'o1-mini lui permet de traiter l'information de manière plus efficace et plus économique, en fonction des implications d'un poste occupé par l'un de ses employés.
En fait, o1-mini traite les jetons trois fois plus rapidement que o1-preview.
Pour cette raison, OpenAI permet à o1-mini de réfléchir plus longtemps que o1-preview, et cette décision contribue à démontrer ce que l'entreprise considère comme la meilleure partie de ses modèles de raisonnement : plus de temps de réflexion équivaut à de meilleures réponses, également connu sous le nom de mise à l'échelle de calcul log-linéaire.
Le gain d’efficacité obtenu par OpenAI en réduisant o1 à une forme miniaturisée semble être une réussite aussi importante que le raisonnement de preuve de concept.
Les LLM de plus en plus importants doivent être réduits pour que l'économie de l'IA fonctionne
Les meilleurs LLM deviennent de plus en plus gros, et la capacité de les réduire afin qu'ils soient moins chers à utiliser sera essentielle pour faire fonctionner l'économie de l'IA. OpenAI n'a pas publié d'informations sur ce qu'il a fait pour y parvenir, et son personnel garde ses cartes près de sa poitrine en ce qui concerne o1.
C'est surprenant de voir ce que fait déjà OpenAI payer les développeurs moins pour o1-mini que pour GPT-4o. Le nouveau modèle est toujours 20 fois plus cher que la version mini de GPT4o, mais étant donné les indices fournis par OpenAI dans les commentaires publics, nous doutons que son fonctionnement coûte beaucoup plus cher.
Nous ne savons pas combien premiers utilisateurs ils seront prêts à payer des prix gonflés pour utiliser le meilleur LLM au monde, mais OpenAI a dit aux développeurs de s'attendre à des baisses de prix pour ses modèles o1, similaires aux baisses de prix pour les modèles de classe GPT-4.
Ces réductions se produiront tôt ou tard. Cela peut dépendre du moment où les concurrents aiment Google Et Anthropique ils lanceront leurs propres modèles de raisonnement. Ces concurrents devront peut-être proposer des prix inférieurs à ceux d’OpenAI pour avoir de meilleures chances d’attirer les développeurs.
Pour les développeurs, OpenAIo1-mini coûte 80 % de moins que 01-preview
Ce nouveau modèle se rapproche remarquablement des performances d'OpenAI o1 dans les benchmarks d'évaluation tels que AIME et Codeforces. Les développeurs s'attendent à ce que o1-mini soit un modèle plus rapide et plus pratique pour les applications nécessitant un raisonnement.
OpenAI a lancé o1-mini pour les utilisateurs d'API niveau 5 à un coût 80 % inférieur à celui d'OpenAIo1-preview. Les utilisateurs de ChatGPT Plus, Team, Enterprise et Edu peuvent utiliser o1-mini comme alternative à o1-preview, bénéficiant de limites de vitesse plus élevées et d'une latence réduite.
Optimisé pour le raisonnement STEM
Les grands modèles de langage comme o1 sont pré-entraînés sur de grands ensembles de données textuelles. Bien que ces modèles haute capacité disposent d’une connaissance approfondie du monde, ils peuvent être coûteux et lents pour les applications du monde réel. Au contraire, o1-mini est un modèle plus petit optimisé pour le raisonnement STEM lors de la pré-formation. Après avoir été formé avec le même pipeline d'apprentissage par renforcement de calcul élevé que o1, o1-mini atteint des performances comparables sur de nombreuses tâches de raisonnement utiles, tout en étant nettement plus économique.
Lorsqu'il est évalué sur des critères qui nécessitent intelligence et raisonnement, l'o1-mini fonctionne bien par rapport à l'o1-preview et à l'o1. Cependant, o1-mini montre des performances inférieures sur les tâches nécessitant des connaissances factuelles non STEM.
Programmation: sur le site du concours Forces de code, o1-mini atteint une note Elo de 1650, compétitive avec o1 (1673) et supérieure à o1-preview (1258). Ce score Elo place le modèle dans environ le 86e centile des programmeurs en compétition sur la plateforme Codeforces. o1-mini fonctionne également bien dans le benchmark de programmation HumanEval et dans les défis de cybersécurité (CTF) au niveau secondaire.
Vitesse du modèle
A titre d'exemple concret, les réponses de GPT-4o, o1-mini et o1-preview à une question de raisonnement verbal ont été comparées. Bien que GPT-4o n'ait pas répondu correctement, o1-mini et o1-preview l'ont fait, et o1-mini a obtenu une réponse 3 à 5 fois plus rapide.
Évaluation des préférences humaines : OpenAI a demandé à des évaluateurs humains de comparer o1-mini avec GPT-4o sur des requêtes ouvertes et difficiles dans divers domaines, en utilisant la même méthodologie que comparaison entre o1-preview et GPT-4o. Comme c'est le cas avec o1-preview, o1-mini est préféré à GPT-4o dans les domaines nécessitant un raisonnement, mais n'est pas préféré à GPT-4o dans les domaines axés sur le langage.
En raison de sa spécialisation sur les compétences de raisonnement STEM, les connaissances factuelles d'o1-mini sur des sujets non-STEM tels que les dates, les biographies et les anecdotes sont comparables à celles de petits LLM tels que GPT-4o mini. OpenAI améliorera ces limitations dans les versions futures et expérimentera l'extension du modèle à d'autres modalités et spécialités en dehors du STEM.