Alibaba Qwen 3.5, chatbot à l'ère de l'IA agentique

Le géant chinois de la technologie Alibaba a officiellement dévoilé son nouveau modèle d'intelligence artificielle, Qwen 3.5, conçu pour fonctionner dans ce que l'entreprise appelle « l'ère de l'IA agentique ». Ce type d’intelligence est capable non seulement de répondre à des questions, mais également d’effectuer des tâches complexes de manière autonome via des applications mobiles et de bureau.

Selon les déclarations officielles, Qwen 3.5 est environ 60 % moins cher à utiliser et peut gérer des charges de travail beaucoup plus importantes que son prédécesseur, tout en offrant également des capacités visuelles agentiques qui lui permettent d'interagir de manière plus dynamique avec l'environnement numérique.

Qwen 3.5, caractéristiques techniques et performances

Qwen3.5 est le modèle à poids ouvert de la nouvelle série, appelé Qwen3.5-397B-A17B. En tant que modèle de langage de vision natif, Qwen3.5-397B-A17B démontre d'excellents résultats dans un large éventail de tests, notamment le raisonnement, le codage, les capacités agents et la compréhension multimodale, permettant aux développeurs et aux entreprises d'atteindre des niveaux de productivité nettement plus élevés.

Basé sur une architecture hybride innovante qui combine une attention linéaire (via les Gated Delta Networks) avec un mélange clairsemé d'experts, le modèle atteint une grande efficacité dans la phase d'inférence : malgré 397 milliards de paramètres au total, il n'en active que 17 milliards pour chaque passage direct, optimisant ainsi la vitesse et les coûts sans compromettre les performances.

De plus, la prise en charge linguistique a été étendue de 119 à 201 langues et dialectes, offrant une plus grande accessibilité et une prise en charge étendue aux utilisateurs du monde entier.

Qwen3.5-Plus et disponibilité sur Alibaba Cloud

La version Qwen3.5-Plus est le modèle hébergé disponible via Alibaba Cloud Model Studio et comprend :

une fenêtre contextuelle de 1 million de jetons par défaut
outils officiels intégrés
utilisation d'outils adaptatifs

Évaluations des performances

Nous présentons ci-dessous une évaluation complète des modèles par rapport aux modèles frontières clés, à travers un large éventail d'activités et de modalités.

Notes méthodologiques sur les benchmarks

HLE-Verified : version vérifiée et révisée de Le dernier examen de l'humanité (HLE)accompagné d'un protocole de vérification transparent et d'une taxonomie détaillée des erreurs. L'ensemble de données est open source sur Hugging Face.
TAU2-Bench : suit la configuration officielle, à l'exception du domaine « compagnie aérienne », où tous les modèles sont évalués en appliquant les corrections proposées dans la fiche système Claude Opus 4.5.
Marque MCP : le serveur GitHub MCP utilise la version v0.30.3 de api.githubcopilot.com ; Les réponses de l’outil Playwright sont tronquées à 32 000 jetons.
Agent de recherche : la plupart des agents de recherche basés sur des modèles adoptent une stratégie simple de « repliement du contexte » (256 000) ; Lorsque la longueur cumulée des réponses de l'outil dépasse un seuil prédéfini, les réponses plus anciennes sont ignorées pour maintenir le contexte dans les limites.
BrowseComp : deux stratégies ont été testées ; le simple repliement du contexte a obtenu un score de 69,0, tandis que la stratégie « tout jeter » utilisée par DeepSeek-V3.2 et Kimi K2.5 a obtenu un score de 78,6.
WideSearch : utilisation d'une fenêtre contextuelle de 256 Ko sans gestion du contexte.
MMLU-ProX : précision moyenne sur 29 langues.
WMT24++ : sous-ensemble plus complexe de WMT24, avec des difficultés d'étiquetage et de rééquilibrage ; a rapporté des scores moyens dans 55 langues via XCOMET-XXL.
MAXIFE : précision des invites originales en anglais et multilingues (23 configurations au total).
Les cellules vides (–) indiquent les scores non encore disponibles ou non applicables.

Compétences en langage visuel et en STEM

Alibaba a présenté Qwen 3.5 comme un modèle offrant des performances améliorées dans des benchmarks clés, affirmant qu'il peut rivaliser avec les principaux modèles d'IA au niveau mondial, y compris ceux développés par des géants américains tels que OpenAI (GPT-5.2), Anthropic (Claude Opus 4.5) et Google (Gemini 3 Pro).

Dans la comparaison, le modèle Qwen3.5-397B-A17B montre des résultats particulièrement solides dans les tâches STEM et de résolution de problèmes.

Le rôle de l’apprentissage par renforcement

Par rapport à la série Qwen3, les améliorations post-formation de Qwen3.5 proviennent principalement d'une évolutivité étendue des tâches et des environnements d'apprentissage par renforcement (RL). L'approche adoptée a donné la priorité à l'augmentation de la difficulté et à la généralisabilité des environnements RL, plutôt qu'à l'optimisation de métriques spécifiques ou de catégories restreintes de requêtes.

Les progrès des capacités agentiques globales sont mesurés en faisant la moyenne du classement de chaque modèle dans les benchmarks suivants : BFCL-V4, VITA-Bench, DeepPlanning, Tool-Decathlon et MCP-Mark. D’autres résultats d’évolutivité sur un plus large éventail de tâches seront détaillés dans un prochain rapport technique.

Avec cette version, Alibaba renforce sa stratégie en matière d'IA multimodale et agentique, en se concentrant sur l'efficacité, l'évolutivité et l'ouverture de l'écosystème pour les développeurs et les entreprises du monde entier.

La nouvelle fonctionnalité introduit également la prise en charge de plus de 200 langues et dialectes, ainsi que des capacités avancées de raisonnement, de traitement d'images et d'exécution de tâches agentiques (capacité d'effectuer des tâches complexes sans supervision constante).

Pré-entraînement : puissance, efficacité et polyvalence

Qwen3.5 réalise des progrès significatifs dans la phase de pré-entraînement selon trois axes principaux : puissance, efficacité et polyvalence.

Puissance : le modèle a été formé sur une quantité beaucoup plus importante de jetons visuels et textuels que Qwen3, avec des données chinoises/anglaises, multilingues, STEM et de raisonnement enrichies par un filtrage plus rigoureux. Cela permet la parité de génération : Qwen3.5-397B-A17B correspond au modèle Qwen3-Max-Base sur plus de 1 000 milliards de paramètres.

Efficacité : construit sur l'architecture Qwen3-Next, il intègre un mélange d'experts (MoE) à plus grande parcimonie, un hybride Gated DeltaNet + Gated Attention, des optimisations de stabilité et une prédiction multi-jetons. Avec une longueur de contexte de 32k/256k, la vitesse de décodage du Qwen3.5-397B-A17B est respectivement 8,6x/19,0x celle du Qwen3-Max, avec des performances comparables. De plus, le débit est 3,5x/7,2x supérieur à celui du Qwen3-235B-A22B.

Polyvalence : le modèle est nativement multimodal grâce à la fusion précoce texte-vision et à l'expansion des données visuelles, STEM et vidéo, surpassant Qwen3-VL à la même échelle. La couverture linguistique passe de 119 à 201 langues et dialectes ; un vocabulaire de 250 000 jetons (au lieu de 150 000) améliore l'efficacité d'encodage/décodage de 10 à 60 % dans la plupart des langues.

Infrastructure : efficacité multimodale et 8e PC

Qwen3.5 permet une formation multimodale native efficace grâce à une infrastructure hétérogène qui sépare les stratégies de parallélisme entre les composants visuels et linguistiques, évitant ainsi les inefficacités des approches uniformes. En exploitant des activations éparses pour chevaucher les calculs entre les composants, le système atteint un débit de formation de près de 100 % par rapport aux modèles texte uniquement, même sur des données mixtes texte-image-vidéo.

En complément, un pipeline FP8 natif applique une faible précision aux activations, au routage MoE et aux opérations GEMM, avec une surveillance d'exécution qui préserve BF16 dans les couches sensibles. Cela se traduit par une réduction d'environ 50 % de la mémoire d'activation et une augmentation de la vitesse de plus de 10 %, tout en maintenant la stabilité même sur des dizaines de milliards de jetons.

Cadre RL évolutif et flux de travail agent

Pour améliorer continuellement l'apprentissage par renforcement, un framework RL asynchrone et évolutif a été développé qui prend en charge les modèles Qwen3.5 de toutes tailles, dans des contextes textuels, multimodaux et multi-tours.

Avec une architecture entièrement désagrégée entre formation et inférence, le système améliore l'utilisation du matériel, l'équilibrage de charge dynamique et la récupération granulaire après panne. L'optimisation du débit et la cohérence train-inférence sont encore renforcées par des techniques telles que :

formation de bout en bout dans le 8e PC
rediffusion du routeur de déploiement
décodage spéculatif
blocage du déploiement multi-tours

La co-conception entre le système et les algorithmes limite l’obsolescence progressive et réduit la distorsion des données, préservant ainsi la stabilité et les performances. De plus, le framework prend en charge de manière native les flux de travail agents, facilitant des interactions multi-tours fluides et transparentes.

La conception découplée vous permet de gérer des millions de «échafaudages » et agents, améliorant considérablement la généralisation du modèle. Dans l’ensemble, ces optimisations produisent une accélération de bout en bout entre 3x et 5x, avec des niveaux élevés de stabilité, d’efficacité et d’évolutivité.

Concurrence sur le marché chinois de l’intelligence artificielle

Le lancement de Qwen 3.5 intervient à un moment de concurrence intense dans le secteur chinois de l'IA. Des entreprises technologiques comme ByteDance ont récemment mis à jour leur chatbot Dubaï 2.0également conçu pour l'ère agentique et avec une large base d'utilisateurs actifs en Chine.

Dans le même temps, des startups comme DeepSeek ont bousculé le marché mondial avec des modèles open source économiques et performants, poussant l’ensemble de l’écosystème chinois vers des solutions de plus en plus compétitives et diversifiées.

Stratégie d'adoption et réponse du marché

Pour accroître l'adoption de son chatbot Qwen en Chine, Alibaba a déjà mis en œuvre des campagnes promotionnelles, notamment des incitations commerciales, qui ont généré une augmentation significative du nombre d'utilisateurs actifs malgré des problèmes techniques sporadiques au début.

Le nouveau modèle représente une étape importante pour Alibaba, qui vise à consolider sa présence dans l'IA grand public et d'entreprise, en cherchant à équilibrer les coûts, les performances et les capacités autonomes dans un paysage technologique de plus en plus compétitif, tant au niveau national que mondial.

Perspectives d’avenir et impact mondial

Avec Qwen 3.5, Alibaba vise non seulement à renforcer sa position sur le marché intérieur chinois, mais aussi à défier les technologies mondiales dans les applications avancées d’intelligence artificielle. Cependant, la diffusion internationale des solutions chinoises d’IA pourrait se heurter à des problèmes de confidentialité et à des tensions géopolitiques, en particulier sur les marchés occidentaux.

L’évolution de cette technologie sera étroitement surveillée par les développeurs et les investisseurs, alors que l’écosystème mondial de l’IA continue de se transformer rapidement sous la pression de l’innovation.

Qwen3.5 fournit une base solide pour créer des agents numériques universels, grâce à son architecture hybride efficace et son raisonnement multimodal natif.

Le prochain saut évolutif nécessitera le passage d'une simple évolutivité de modèle à une intégration systémique : créer des agents dotés d'une mémoire persistante pour l'apprentissage entre les sessions, des interfaces incarnées pour l'interaction avec le monde réel, des mécanismes d'auto-amélioration et une conscience économique pour fonctionner dans le cadre de contraintes pratiques.

L’objectif est de créer des systèmes cohérents qui fonctionnent de manière autonome dans le temps, transformant les assistants actuels – limités à des tâches uniques – en partenaires fiables et persistants, capables d’exécuter des objectifs complexes et durables avec un jugement aligné sur celui des humains.

En savoir plus sur Qwen 3.5.