Kimi K2 par Moonshot Ai: le modèle de 1 billion de paramètres qui remet en question GPT

MOonshot aiStartup chinoise soutenue par Alibaba et fondée en 2023, lancé Kimi K2. Ce modèle linguistique (LLM) représente un tournant en intelligence artificielle ouverte: avec 1 billion de paramètres totaux et seulement 32 milliards actifs par inférence, combine une puissance élevée et une efficacité opérationnelle.

Kimi K2 utilise une conception de conception de mélange -of-experts (MOE)

Kimi K2 utilise une conception de mélange -of-hexperts qui active uniquement un sous-ensemble d'experts à chaque étape. Dans la pratique, sur 384 experts globaux, environ 8 sont activés pour les jetons, permettant une vitesse et un coût réduits sans sacrifier la capacité de raisonnement et de compréhension. Ce mode rend le modèle considérablement plus léger en inférence que le nombre total de nombres ne le suggèrent.

Optimisation avec Muon et MuONCLIP

La phase de formation était basée sur Muonun optimiseur avancé de type de deuxième ordre, combiné avec le système MuONCLIP qui limite la croissance des logits avant de déstabiliser la formation. Selon l'équipe, Plus de 15,5 billions de jetons ont été développés sans problèmes d'instabilité. Cette stratégie a permis à Kimi K2 d'atteindre des niveaux d'efficacité élevés dans la convergence de la formation.

Architecture	Mixage des experts (MOE)
Paramètres totaux	1T
Paramètres activés	32b
Nombre de couches (Couche dense incluse)	61
Nombre de couches denses	1
Dimension cachée d'attention	7168
Dimension cachée moe (pour l'expert)	2048
Nombre de têtes d'attention	64
Nombre d'experts	384
Experts sélectionnés pour le jeton	8
Nombre d'experts partagés	1
Taille de vocabulaire	160k
Durée du contexte	128K
Mécanisme d'attention	Député
Fonction d'activation	Swiglu

Performance de référence

Codage et débogage

Dans les tests LivecodeBench V6 et Swe-Bench, Kimi K2 a obtenu des taux GPT -4.1 réussis dans diverses tâches de codage. Par exemple, sur Swe -Bench vérifié (codage agentique), il a atteint 65,8% contre 54,6% de GPT -4.1.

Raisonnement scientifique et mathématique

Sur une référence telle que AIME 2025 et GPQA -Diamond, le modèle a enregistré des scores de 49,5 et 75,1 respectivement, dépassant le GPT -4.1 (37,0 et 66.3) et même avec Claude Opus sur GPQA, dans certains cas, l'excédant.

Compétences agentiques et utilisation des outils

Dans le Benchmark TAU2 (raisonnement multi-HOP et boîte de vitesses entre les outils) Kimi K2 Valeurs concurrentielles enregistrées:

66,1 points contre 67,6 par Claude Opus et 54,4 de GPT – 4.1.
Sur Acebench, il a obtenu 76,5, ce qui a résulté les meilleurs modèles d'agent disponibles.

Coût très bas

Selon certaines sources, Kimi K2 coûte environ 0,14 € par million de jetons d'entrée et 2,30 € par million de jetons de sortie, contre 7,30 € de GPT – 4,1 et plus de 68 € Claude Opus 4, ce qui le rend Extrêmement compétitif en termes de prix / performance.

Référence	Métrique	^{Kimi K2}	^{Deepseek-V3-0324}	^{QWEN3-235B-A22B (Non pensée)}	^{Claude Sonnet 4 (Sans réflexion prolongée)}	^{Claude Opus 4 (Sans réflexion prolongée)}	^GPT-4.1	^{Gémeaux 2.5 Flash Aperçu (05-20)}
Tâches de codage
Livecodebench v6 ^{(24 août – 25 mai)}	Passer @ 1	53.7	46.9	37.0	48.5	47.4	44.7	44.7
Ojbench	Passer @ 1	27.1	24.0	11.3	15.3	19.6	19.5	19.5
Multiple	Passer @ 1		83.1	78.2	88.6	89.6	86.7	85.6
Swe-bench vérifié ^{(Codage sans agent)}	Patch unique sans test (ACC)		36.6	39.4	50.2	53.0	40.8	32.6
Swe-bench vérifié ^{(Codage agentique)}	Intermping unique (ACC)		38.8	34.4	72.7^*	72.5^*	54.6	–
Swe-bench vérifié ^{(Codage agentique)}	Plusieurs hauts (ACC)		–	–	80.2	79.4^*	–	–
SWE-Bench multilingue ^{(Codage agentique)}	Intermping unique (ACC)		25.8	20.9	51.0	–	31.5	–
Terminal	Framework inhouse (ACC)		–	–	35,5	43.2	8.3	–
Terminal	Terminus (ACC)		16.3	6.6	–	–	30.3	16.8
Vide-polyglot	Hébergement	60.0	55.1		56.4	70.7	52.4	44.0
Outil Utiliser les tâches
Retail Tau2	Avg @ 4		69.1	57.0	75.0	81.8	74.8	64.3
Tau2 Airlline	Avg @ 4		39.0	26.5	55,5	60.0	54.5	42.5
Télécom TAU2	Avg @ 4	65.8	32.5	22.1	45.2	57.0	38.6	16.9
Asbench	Hébergement		72.7	70.5	76.2	75.6	80.1	74.5
Tâches mathématiques et STEM
AIME 2024	Avg @ 64	69.6	59.4^*	40.1^*	43.4	48.2	46.5	61.3
AIME 2025	Avg @ 64	49.5	46.7	24.7^*	33.1^*	33.9^*	37.0	46.6
Math-500	Hébergement	97.4	94.0^*	91.2^*	94.0	94.4	92.4	95.4
Hmmt 2025	Avg @ 32	38.8	27.5	11.9	15.9	15.9	19.4	34.7
CNMO 2024	Avg @ 16	74.3		48.6	60.4	57.6	56.6	75.0
Polymatte-en	Avg @ 4	65.1	59.5	51.9	52.8	49.8	54.0	49.9
Zeblogic	Hébergement	89.0	84.0	37.7^*	73.7	59.3	58.5	57.9
Autologues	Hébergement		88.9	83.3	89.8	86.1	88.2	84.1
GPQA-Diamond	Avg @ 8	75.1	68.4^*	62.9^*	70.0^*	74.9^*	66.3	68.2
Supergpqa	Hébergement	57.2	53.7	50.2	55.7	56.5	50.8	49.6
Le dernier examen de l'humanité ^{(Texte uniquement)}	–	4.7	5.2		5.8	7.1	3.7	5.6

Variantes du modèle

Moonshot est sorti Kimi -K2 -Baseversion modulaire pour la recherche et le réglage, e Kimi -k2 -insctutspécialisé dans les conversations guidées avec des compétences agentiques prêtes à l'emploi. Ce dernier est idéal pour les applications immédiatement opérationnelles sans logiques d'orchestration externes.

Accessibilité et limitations

En dépit d'être ouvert, Kimi K2 nécessite des ressources matérielles considérables. Certains utilisateurs de Reddit suggèrent la nécessité de systèmes GPU H200 ou au moins plus de 1 To de RAM pour des performances acceptables; Dans 4-bits, les quantifications peuvent être utilisées sur les configurations sous forme de deux Mac Studio M3 Ultra avec 512 Go. L'accès via les abeilles et l'interface Web est plutôt plus facile, offert par des fournisseurs tels que Novitaai ou Parasail sur des plateformes telles que OpenRouter.

Base de résultats d'évaluation du modèle

Référence	Métrique	Tir	Base kimi k2	Fond de profondeur	Qwen2.5-72b	Llama 4 Maverick
Tâches générales
MMLU	Em	5 ruptures	87.8	87.1	86.1	84.9
Mmlu-pro	Em	5 ruptures	69.2	60.6	62.8	63.5
Mmlu-dedux-2.0	Em	5 ruptures	90.2	89.5	87.8	88.2
Simpleqa	Correct	5 ruptures	35.3	26.5	10.3	23.7
Triviaqa	Em	5 ruptures	85.1	84.1	76.0	79.3
GPQA-Diamond	Avg @ 8	5 ruptures	48.1	50.5	40.8	49.4
Supergpqa	Em	5 ruptures	44.7	39.2	34.2	38.8
Tâches de codage
Livecodebench v6	Passer @ 1	1 tir	26.3	22.9	21.1	25.1
Évaluation	Passer @ 1	–	80.3	65.6	66.0	65,5
Tâches mathématiques
Mathématiques	Em	4 tirs	70.2	60.1	61.0	63.0
GSM8K	Em	8 drop	92.1	91.7	90.4	86.3
Tâches chinoises
C-Eval	Em	5 ruptures	92.5	90.0	90.9	80.9
Csimpleqa	Correct	5 ruptures	77.6	72.1	50.5	53.5

^•Seuls les modèles prédictifs open source ont été évalués. Les résultats sont rapportés pour QWEN2.5-72B car le point de contrôle de base pour QWEN3-235B-A22B n'est pas open source au moment de l'étude.

Tous les modèles sont évalués en utilisant le même protocole d'évaluation.

Impact sur l'écosystème AI

Le lancement mondial presque contemporain vers le modèle Deepseek montre que l'industrie chinoise ouverte-source est de plus en plus pertinente. Kimi K2 est déjà considéré comme un moment historique similaire à la sortie du modèle Deepseek R1: un point de référence pour l'innovation ouverte. Des dizaines de milliers de fois en quelques jours en étreignant le visage ont été téléchargés.

Applications pratiques

Développement de logiciels

Kimi K2 est particulièrement utile pour les développeurs qui souhaitent le soutenir à partir des pipelines de développement: il peut écrire du code, effectuer des tests, corriger les bogues et les éléments indépendamment avec des outils tels que les expéditions bash_exec.

Prototypage et agents autonomes

Grâce à la conception agentique, il peut orchestrer la tâche en plusieurs étapes, s'intégrer aux abeilles externes et composer des actions complexes. Cela le rend adapté à la construction d'agents intelligents personnalisés sans utiliser de planificateurs externes.

Kimi K2, défis et limites

Complexité des infrastructures

Une utilisation efficace nécessite des infrastructures à grande capacité, que seules les organisations budgétaires importantes peuvent se permettre. Les opérations sur les dispositifs « Light » restent limités aux expériences avec une quantification extrême.

Incertitudes sur le comportement des agents

À l'heure actuelle, certaines des compétences agentiques proclamées par Moonshot n'ont pas encore été complètement reproduites ou vérifiées par la communauté scientifique. Il y a des doutes sur les échecs dans certaines tâches complexes, en particulier sans la supervision active ni les structures de conducteur.

Licence modifiée

Bien que le modèle SIA Open -weeght ait une clause dans la licence non compatible OSI: nécessite la vue du nom « Kimi K2 » si elle est utilisée dans des produits commerciaux à haut trafic (plus de 100 millions de MAU ou 20 millions USD USD).

Conclusions

Kimi K2 représente Un saut important en avant pour l'IA Open: combine d'excellentes performances, de faibles coûts et des compétences avancées dans un modèle de 1 billion de paramètres. Il représente une alternative crédible à GPT – 4.1 et Claude, en particulier dans les scénarios professionnels et de recherche. Cependant, le matériel et les complexités d'exploitation nécessaires limitent une adoption de masse à ce jour.

Ceux qui veulent en faire l'expérience à petite échelle peuvent le faire via des abeilles cloud; Ceux qui ont accès à des ressources importantes peuvent plutôt évaluer un déploiement complet pour stimuler les agents personnalisés. Moonshot, avec ce modèle, marque un autre chapitre dans l'expansion de l'IA accessible et flexible.