Kimi K2 par Moonshot Ai: le modèle de 1 billion de paramètres qui remet en question GPT – 4.1
MOonshot aiStartup chinoise soutenue par Alibaba et fondée en 2023, lancé Kimi K2. Ce modèle linguistique (LLM) représente un tournant en intelligence artificielle ouverte: avec 1 billion de paramètres totaux et seulement 32 milliards actifs par inférence, combine une puissance élevée et une efficacité opérationnelle.
Kimi K2 utilise une conception de conception de mélange -of-experts (MOE)
Kimi K2 utilise une conception de mélange -of-hexperts qui active uniquement un sous-ensemble d'experts à chaque étape. Dans la pratique, sur 384 experts globaux, environ 8 sont activés pour les jetons, permettant une vitesse et un coût réduits sans sacrifier la capacité de raisonnement et de compréhension. Ce mode rend le modèle considérablement plus léger en inférence que le nombre total de nombres ne le suggèrent.



Optimisation avec Muon et MuONCLIP
La phase de formation était basée sur Muonun optimiseur avancé de type de deuxième ordre, combiné avec le système MuONCLIP qui limite la croissance des logits avant de déstabiliser la formation. Selon l'équipe, Plus de 15,5 billions de jetons ont été développés sans problèmes d'instabilité. Cette stratégie a permis à Kimi K2 d'atteindre des niveaux d'efficacité élevés dans la convergence de la formation.


| Architecture | Mixage des experts (MOE) |
| Paramètres totaux | 1T |
| Paramètres activés | 32b |
| Nombre de couches (Couche dense incluse) | 61 |
| Nombre de couches denses | 1 |
| Dimension cachée d'attention | 7168 |
| Dimension cachée moe (pour l'expert) | 2048 |
| Nombre de têtes d'attention | 64 |
| Nombre d'experts | 384 |
| Experts sélectionnés pour le jeton | 8 |
| Nombre d'experts partagés | 1 |
| Taille de vocabulaire | 160k |
| Durée du contexte | 128K |
| Mécanisme d'attention | Député |
| Fonction d'activation | Swiglu |
Performance de référence
Codage et débogage
Dans les tests LivecodeBench V6 et Swe-Bench, Kimi K2 a obtenu des taux GPT -4.1 réussis dans diverses tâches de codage. Par exemple, sur Swe -Bench vérifié (codage agentique), il a atteint 65,8% contre 54,6% de GPT -4.1.
Raisonnement scientifique et mathématique
Sur une référence telle que AIME 2025 et GPQA -Diamond, le modèle a enregistré des scores de 49,5 et 75,1 respectivement, dépassant le GPT -4.1 (37,0 et 66.3) et même avec Claude Opus sur GPQA, dans certains cas, l'excédant.
Compétences agentiques et utilisation des outils
Dans le Benchmark TAU2 (raisonnement multi-HOP et boîte de vitesses entre les outils) Kimi K2 Valeurs concurrentielles enregistrées:
- 66,1 points contre 67,6 par Claude Opus et 54,4 de GPT – 4.1.
- Sur Acebench, il a obtenu 76,5, ce qui a résulté les meilleurs modèles d'agent disponibles.


Coût très bas
Selon certaines sources, Kimi K2 coûte environ 0,14 € par million de jetons d'entrée et 2,30 € par million de jetons de sortie, contre 7,30 € de GPT – 4,1 et plus de 68 € Claude Opus 4, ce qui le rend Extrêmement compétitif en termes de prix / performance.
| Référence | Métrique | Kimi K2 | Deepseek-V3-0324 | QWEN3-235B-A22B (Non pensée) |
Claude Sonnet 4 (Sans réflexion prolongée) |
Claude Opus 4 (Sans réflexion prolongée) |
GPT-4.1 | Gémeaux 2.5 Flash Aperçu (05-20) |
|---|---|---|---|---|---|---|---|---|
| Tâches de codage | ||||||||
| Livecodebench v6 (24 août – 25 mai) |
Passer @ 1 | 53.7 | 46.9 | 37.0 | 48.5 | 47.4 | 44.7 | 44.7 |
| Ojbench | Passer @ 1 | 27.1 | 24.0 | 11.3 | 15.3 | 19.6 | 19.5 | 19.5 |
| Multiple | Passer @ 1 | 83.1 | 78.2 | 88.6 | 89.6 | 86.7 | 85.6 | |
| Swe-bench vérifié (Codage sans agent) |
Patch unique sans test (ACC) | 36.6 | 39.4 | 50.2 | 53.0 | 40.8 | 32.6 | |
| Swe-bench vérifié (Codage agentique) |
Intermping unique (ACC) | 38.8 | 34.4 | 72.7* | 72.5* | 54.6 | – | |
| Plusieurs hauts (ACC) | – | – | 80.2 | 79.4* | – | – | ||
| SWE-Bench multilingue (Codage agentique) |
Intermping unique (ACC) | 25.8 | 20.9 | 51.0 | – | 31.5 | – | |
| Terminal | Framework inhouse (ACC) | – | – | 35,5 | 43.2 | 8.3 | – | |
| Terminus (ACC) | 16.3 | 6.6 | – | – | 30.3 | 16.8 | ||
| Vide-polyglot | Hébergement | 60.0 | 55.1 | 56.4 | 70.7 | 52.4 | 44.0 | |
| Outil Utiliser les tâches | ||||||||
| Retail Tau2 | Avg @ 4 | 69.1 | 57.0 | 75.0 | 81.8 | 74.8 | 64.3 | |
| Tau2 Airlline | Avg @ 4 | 39.0 | 26.5 | 55,5 | 60.0 | 54.5 | 42.5 | |
| Télécom TAU2 | Avg @ 4 | 65.8 | 32.5 | 22.1 | 45.2 | 57.0 | 38.6 | 16.9 |
| Asbench | Hébergement | 72.7 | 70.5 | 76.2 | 75.6 | 80.1 | 74.5 | |
| Tâches mathématiques et STEM | ||||||||
| AIME 2024 | Avg @ 64 | 69.6 | 59.4* | 40.1* | 43.4 | 48.2 | 46.5 | 61.3 |
| AIME 2025 | Avg @ 64 | 49.5 | 46.7 | 24.7* | 33.1* | 33.9* | 37.0 | 46.6 |
| Math-500 | Hébergement | 97.4 | 94.0* | 91.2* | 94.0 | 94.4 | 92.4 | 95.4 |
| Hmmt 2025 | Avg @ 32 | 38.8 | 27.5 | 11.9 | 15.9 | 15.9 | 19.4 | 34.7 |
| CNMO 2024 | Avg @ 16 | 74.3 | 48.6 | 60.4 | 57.6 | 56.6 | 75.0 | |
| Polymatte-en | Avg @ 4 | 65.1 | 59.5 | 51.9 | 52.8 | 49.8 | 54.0 | 49.9 |
| Zeblogic | Hébergement | 89.0 | 84.0 | 37.7* | 73.7 | 59.3 | 58.5 | 57.9 |
| Autologues | Hébergement | 88.9 | 83.3 | 89.8 | 86.1 | 88.2 | 84.1 | |
| GPQA-Diamond | Avg @ 8 | 75.1 | 68.4* | 62.9* | 70.0* | 74.9* | 66.3 | 68.2 |
| Supergpqa | Hébergement | 57.2 | 53.7 | 50.2 | 55.7 | 56.5 | 50.8 | 49.6 |
| Le dernier examen de l'humanité (Texte uniquement) |
– | 4.7 | 5.2 | 5.8 | 7.1 | 3.7 | 5.6 | |
Variantes du modèle
Moonshot est sorti Kimi -K2 -Baseversion modulaire pour la recherche et le réglage, e Kimi -k2 -insctutspécialisé dans les conversations guidées avec des compétences agentiques prêtes à l'emploi. Ce dernier est idéal pour les applications immédiatement opérationnelles sans logiques d'orchestration externes.
Accessibilité et limitations
En dépit d'être ouvert, Kimi K2 nécessite des ressources matérielles considérables. Certains utilisateurs de Reddit suggèrent la nécessité de systèmes GPU H200 ou au moins plus de 1 To de RAM pour des performances acceptables; Dans 4-bits, les quantifications peuvent être utilisées sur les configurations sous forme de deux Mac Studio M3 Ultra avec 512 Go. L'accès via les abeilles et l'interface Web est plutôt plus facile, offert par des fournisseurs tels que Novitaai ou Parasail sur des plateformes telles que OpenRouter.
Base de résultats d'évaluation du modèle
| Référence | Métrique | Tir | Base kimi k2 | Fond de profondeur | Qwen2.5-72b | Llama 4 Maverick |
|---|---|---|---|---|---|---|
| Tâches générales | ||||||
| MMLU | Em | 5 ruptures | 87.8 | 87.1 | 86.1 | 84.9 |
| Mmlu-pro | Em | 5 ruptures | 69.2 | 60.6 | 62.8 | 63.5 |
| Mmlu-dedux-2.0 | Em | 5 ruptures | 90.2 | 89.5 | 87.8 | 88.2 |
| Simpleqa | Correct | 5 ruptures | 35.3 | 26.5 | 10.3 | 23.7 |
| Triviaqa | Em | 5 ruptures | 85.1 | 84.1 | 76.0 | 79.3 |
| GPQA-Diamond | Avg @ 8 | 5 ruptures | 48.1 | 50.5 | 40.8 | 49.4 |
| Supergpqa | Em | 5 ruptures | 44.7 | 39.2 | 34.2 | 38.8 |
| Tâches de codage | ||||||
| Livecodebench v6 | Passer @ 1 | 1 tir | 26.3 | 22.9 | 21.1 | 25.1 |
| Évaluation | Passer @ 1 | – | 80.3 | 65.6 | 66.0 | 65,5 |
| Tâches mathématiques | ||||||
| Mathématiques | Em | 4 tirs | 70.2 | 60.1 | 61.0 | 63.0 |
| GSM8K | Em | 8 drop | 92.1 | 91.7 | 90.4 | 86.3 |
| Tâches chinoises | ||||||
| C-Eval | Em | 5 ruptures | 92.5 | 90.0 | 90.9 | 80.9 |
| Csimpleqa | Correct | 5 ruptures | 77.6 | 72.1 | 50.5 | 53.5 |
• Seuls les modèles prédictifs open source ont été évalués. Les résultats sont rapportés pour QWEN2.5-72B car le point de contrôle de base pour QWEN3-235B-A22B n'est pas open source au moment de l'étude.
Tous les modèles sont évalués en utilisant le même protocole d'évaluation.
Impact sur l'écosystème AI
Le lancement mondial presque contemporain vers le modèle Deepseek montre que l'industrie chinoise ouverte-source est de plus en plus pertinente. Kimi K2 est déjà considéré comme un moment historique similaire à la sortie du modèle Deepseek R1: un point de référence pour l'innovation ouverte. Des dizaines de milliers de fois en quelques jours en étreignant le visage ont été téléchargés.
Applications pratiques
Développement de logiciels
Kimi K2 est particulièrement utile pour les développeurs qui souhaitent le soutenir à partir des pipelines de développement: il peut écrire du code, effectuer des tests, corriger les bogues et les éléments indépendamment avec des outils tels que les expéditions bash_exec.
Prototypage et agents autonomes
Grâce à la conception agentique, il peut orchestrer la tâche en plusieurs étapes, s'intégrer aux abeilles externes et composer des actions complexes. Cela le rend adapté à la construction d'agents intelligents personnalisés sans utiliser de planificateurs externes.
Kimi K2, défis et limites
Complexité des infrastructures
Une utilisation efficace nécessite des infrastructures à grande capacité, que seules les organisations budgétaires importantes peuvent se permettre. Les opérations sur les dispositifs « Light » restent limités aux expériences avec une quantification extrême.
Incertitudes sur le comportement des agents
À l'heure actuelle, certaines des compétences agentiques proclamées par Moonshot n'ont pas encore été complètement reproduites ou vérifiées par la communauté scientifique. Il y a des doutes sur les échecs dans certaines tâches complexes, en particulier sans la supervision active ni les structures de conducteur.
Licence modifiée
Bien que le modèle SIA Open -weeght ait une clause dans la licence non compatible OSI: nécessite la vue du nom « Kimi K2 » si elle est utilisée dans des produits commerciaux à haut trafic (plus de 100 millions de MAU ou 20 millions USD USD).
Conclusions
Kimi K2 représente Un saut important en avant pour l'IA Open: combine d'excellentes performances, de faibles coûts et des compétences avancées dans un modèle de 1 billion de paramètres. Il représente une alternative crédible à GPT – 4.1 et Claude, en particulier dans les scénarios professionnels et de recherche. Cependant, le matériel et les complexités d'exploitation nécessaires limitent une adoption de masse à ce jour.
Ceux qui veulent en faire l'expérience à petite échelle peuvent le faire via des abeilles cloud; Ceux qui ont accès à des ressources importantes peuvent plutôt évaluer un déploiement complet pour stimuler les agents personnalisés. Moonshot, avec ce modèle, marque un autre chapitre dans l'expansion de l'IA accessible et flexible.
