Qwen 3

Alibaba Qwen3: Nouvelle famille de modèles aux « hybrides » Challenge OpenI et Google

ÀLibabale géant technologique chinois, officiellement présenté Qwen3une nouvelle famille de modèles d’intelligence artificielle qui, selon l’entreprise, peuvent correspondre et, dans certains cas, pour surmonter les meilleures solutions offertes par Google et Openai.

La plupart de ces modèles sont – ou seront bientôt disponibles en téléchargement avec une licence « ouverte » sur les plateformes de développement Ai étreignant le visage Et Github.

Les modèles varient en taille à partir de 0,6 milliard à 235 milliards des paramètres. Rappelons que les paramètres représentent, de manière approximative, les compétences en résolution de problèmes d’un modèle: plus elle a de paramètres, mieux ils sont ses performances.

Qwen 3
Qwen 3Qwen 3

Pression sur les laboratoires et les restrictions américaines

La croissance de la série de modèles originaires de Chine, comme QWEN, a accru la pression sur les laboratoires américains, tels que OpenII, afin qu’ils développent des technologies encore plus avancées. Cette évolution a également poussé les décideurs politiques à introduire des restrictions visant à limiter la capacité des entreprises chinoises de renseignement artificiel à obtenir les jetons nécessaires à la formation des modèles.

Caractéristiques techniques: modèles «hybrides» et méthodes de raisonnement

Selon Alibaba, les modèles Qwen3 sont Modèles « hybrides »capable de «prendre du temps à raisonner» sur des problèmes complexes ou de répondre rapidement aux demandes plus simples. Le raisonnement permet aux modèles de réaliser efficacement une maîtrise de soi des faits, Semblable aux modèles tels que O3 d’OpenAI, mais avec le coût d’une plus grande latence.

« Nous avons intégré les méthodes de pensée et non-pensées sans continu, offrant aux utilisateurs la flexibilité de contrôler le budget de la pensée », a écrit l’équipe Qwen dans un article de blog. « Cette conception permet aux utilisateurs de configurer plus facilement des budgets spécifiques pour les activités. « 

Certains des modèles adoptent également une architecture « Mixth d’experts » (MOE), qui est plus efficace d’un point de vue de calcul pour répondre à la requête. Le MOE éclate les tâches des sous-compositions et les attribue à de petits modèles « experts » spécialisés.

Qwen3Qwen3

Qwen3: formation à grande échelle et support multilingue

Les modèles Qwen3 prennent en charge bien 119 languesa dit Alibaba, et a été formé sur un ensemble de données de presque 36 billions de jeton. (Les jetons sont les unités fondamentales des données traitées par un modèle: 1 million de jetons correspondent à environ 750 000 mots.) La formation a utilisé une combinaison de manuels scolaires, « Couples Question-Response, » Fragments de code, données générées par l’IA et d’autres matériaux.

Ces améliorations, ainsi que d’autres innovations, ont considérablement amélioré les compétences de QWEN3 en ce qui concerne son prédécesseur, Qwen2selon ce qui a été déclaré par l’entreprise.

Qwen3Qwen3
Qwen3Qwen3

Performance: comparaison entre qwen3, openai et google

Tout en ne dépassant pas clairement les modèles les plus récents de haut-end, comme OpenII O3 Et O4-minles modèles Qwen3 montrent toujours des performances élevées. Sur Forces codéesune plate-forme pour les compétitions de programmation, le plus grand modèle, QWEN-3-235B-A22Bdépasse c’est openii O3-min est Gemini 2.5 Pro de Google, dit Alibaba.

En outre, QWEN-3-235B-A22B obtient de meilleurs résultats que O3-min sur la version la plus récente de Aime (référence mathématique avancée) et sur BFCLun test conçu pour évaluer la capacité d’un modèle à réfléchir aux problèmes.

Cependant, QWEN-3-235B-A22B Il n’est pas encore accessible au public.

Le plus grand modèle public: Qwen3-32b

Le plus grand modèle QWEN3 accessible au public, Qwen3-32breste compétitif par rapport à différents modèles aux propriétaires et aux open source, y compris ceux du laboratoire chinois Profondeur avec son modèle R1. Qwen3-32b dépasse le modèle O1 d’Openai dans divers tests, y compris la référence codante Livecodebench.

Alibaba a souligné que Qwen3 « Sauf » Dans les compétences de l’utilisation d’outils, en plus de montrer une grande compétence dans la réalisation d’instructions et la réplication des formats de données spécifiques. En plus des modèles téléchargeables, Qwen3 est également disponible via un fournisseur de cloud tel que Feux d’artifice AI Et Hyperbolique.

La vision des experts: l’avenir des modèles open source

Tuhin Srivastavaco-fondateur et PDG du cloud hôte AI Basiquea déclaré que Qwen3 représente un autre point en faveur de la tendance des modèles ouverts à suivre les systèmes fermés tels que ceux d’OpenII.

« Les États-Unis ont doublé les efforts pour limiter la vente de puces à la Chine et les achats en Chine, mais des modèles tels que Qwen 3, qui sont à l’avant-garde et ouverts (…) seront sans aucun doute utilisés au niveau national », déclare Srivasta. « Cela reflète la réalité dans laquelle les entreprises construisent leurs deux outils qui achètent des solutions prêtes pour des entreprises telles que Anthropic et OpenAI. »