Kimi K2

Kimi K2 par Moonshot Ai: le modèle de 1 billion de paramètres qui remet en question GPT – 4.1

MOonshot aiStartup chinoise soutenue par Alibaba et fondée en 2023, lancé Kimi K2. Ce modèle linguistique (LLM) représente un tournant en intelligence artificielle ouverte: avec 1 billion de paramètres totaux et seulement 32 milliards actifs par inférence, combine une puissance élevée et une efficacité opérationnelle.

Kimi K2 utilise une conception de conception de mélange -of-experts (MOE)

Kimi K2 utilise une conception de mélange -of-hexperts qui active uniquement un sous-ensemble d'experts à chaque étape. Dans la pratique, sur 384 experts globaux, environ 8 sont activés pour les jetons, permettant une vitesse et un coût réduits sans sacrifier la capacité de raisonnement et de compréhension. Ce mode rend le modèle considérablement plus léger en inférence que le nombre total de nombres ne le suggèrent.

Optimisation avec Muon et MuONCLIP

La phase de formation était basée sur Muonun optimiseur avancé de type de deuxième ordre, combiné avec le système MuONCLIP qui limite la croissance des logits avant de déstabiliser la formation. Selon l'équipe, Plus de 15,5 billions de jetons ont été développés sans problèmes d'instabilité. Cette stratégie a permis à Kimi K2 d'atteindre des niveaux d'efficacité élevés dans la convergence de la formation.

Architecture Mixage des experts (MOE)
Paramètres totaux 1T
Paramètres activés 32b
Nombre de couches (Couche dense incluse) 61
Nombre de couches denses 1
Dimension cachée d'attention 7168
Dimension cachée moe (pour l'expert) 2048
Nombre de têtes d'attention 64
Nombre d'experts 384
Experts sélectionnés pour le jeton 8
Nombre d'experts partagés 1
Taille de vocabulaire 160k
Durée du contexte 128K
Mécanisme d'attention Député
Fonction d'activation Swiglu

Performance de référence

Codage et débogage

Dans les tests LivecodeBench V6 et Swe-Bench, Kimi K2 a obtenu des taux GPT -4.1 réussis dans diverses tâches de codage. Par exemple, sur Swe -Bench vérifié (codage agentique), il a atteint 65,8% contre 54,6% de GPT -4.1.

Raisonnement scientifique et mathématique

Sur une référence telle que AIME 2025 et GPQA -Diamond, le modèle a enregistré des scores de 49,5 et 75,1 respectivement, dépassant le GPT -4.1 (37,0 et 66.3) et même avec Claude Opus sur GPQA, dans certains cas, l'excédant.

Compétences agentiques et utilisation des outils

Dans le Benchmark TAU2 (raisonnement multi-HOP et boîte de vitesses entre les outils) Kimi K2 Valeurs concurrentielles enregistrées:

  • 66,1 points contre 67,6 par Claude Opus et 54,4 de GPT – 4.1.
  • Sur Acebench, il a obtenu 76,5, ce qui a résulté les meilleurs modèles d'agent disponibles.
Kimi K2Kimi K2

Coût très bas

Selon certaines sources, Kimi K2 coûte environ 0,14 € par million de jetons d'entrée et 2,30 € par million de jetons de sortie, contre 7,30 € de GPT – 4,1 et plus de 68 € Claude Opus 4, ce qui le rend Extrêmement compétitif en termes de prix / performance.

Référence Métrique Kimi K2 Deepseek-V3-0324 QWEN3-235B-A22B
(Non pensée)
Claude Sonnet 4
(Sans réflexion prolongée)
Claude Opus 4
(Sans réflexion prolongée)
GPT-4.1 Gémeaux 2.5 Flash
Aperçu (05-20)
Tâches de codage
Livecodebench v6
(24 août – 25 mai)
Passer @ 1 53.7 46.9 37.0 48.5 47.4 44.7 44.7
Ojbench Passer @ 1 27.1 24.0 11.3 15.3 19.6 19.5 19.5
Multiple Passer @ 1 83.1 78.2 88.6 89.6 86.7 85.6
Swe-bench vérifié
(Codage sans agent)
Patch unique sans test (ACC) 36.6 39.4 50.2 53.0 40.8 32.6
Swe-bench vérifié
(Codage agentique)
Intermping unique (ACC) 38.8 34.4 72.7* 72.5* 54.6
Plusieurs hauts (ACC) 80.2 79.4*
SWE-Bench multilingue
(Codage agentique)
Intermping unique (ACC) 25.8 20.9 51.0 31.5
Terminal Framework inhouse (ACC) 35,5 43.2 8.3
Terminus (ACC) 16.3 6.6 30.3 16.8
Vide-polyglot Hébergement 60.0 55.1 56.4 70.7 52.4 44.0
Outil Utiliser les tâches
Retail Tau2 Avg @ 4 69.1 57.0 75.0 81.8 74.8 64.3
Tau2 Airlline Avg @ 4 39.0 26.5 55,5 60.0 54.5 42.5
Télécom TAU2 Avg @ 4 65.8 32.5 22.1 45.2 57.0 38.6 16.9
Asbench Hébergement 72.7 70.5 76.2 75.6 80.1 74.5
Tâches mathématiques et STEM
AIME 2024 Avg @ 64 69.6 59.4* 40.1* 43.4 48.2 46.5 61.3
AIME 2025 Avg @ 64 49.5 46.7 24.7* 33.1* 33.9* 37.0 46.6
Math-500 Hébergement 97.4 94.0* 91.2* 94.0 94.4 92.4 95.4
Hmmt 2025 Avg @ 32 38.8 27.5 11.9 15.9 15.9 19.4 34.7
CNMO 2024 Avg @ 16 74.3 48.6 60.4 57.6 56.6 75.0
Polymatte-en Avg @ 4 65.1 59.5 51.9 52.8 49.8 54.0 49.9
Zeblogic Hébergement 89.0 84.0 37.7* 73.7 59.3 58.5 57.9
Autologues Hébergement 88.9 83.3 89.8 86.1 88.2 84.1
GPQA-Diamond Avg @ 8 75.1 68.4* 62.9* 70.0* 74.9* 66.3 68.2
Supergpqa Hébergement 57.2 53.7 50.2 55.7 56.5 50.8 49.6
Le dernier examen de l'humanité
(Texte uniquement)
4.7 5.2 5.8 7.1 3.7 5.6

Variantes du modèle

Moonshot est sorti Kimi -K2 -Baseversion modulaire pour la recherche et le réglage, e Kimi -k2 -insctutspécialisé dans les conversations guidées avec des compétences agentiques prêtes à l'emploi. Ce dernier est idéal pour les applications immédiatement opérationnelles sans logiques d'orchestration externes.

Accessibilité et limitations

En dépit d'être ouvert, Kimi K2 nécessite des ressources matérielles considérables. Certains utilisateurs de Reddit suggèrent la nécessité de systèmes GPU H200 ou au moins plus de 1 To de RAM pour des performances acceptables; Dans 4-bits, les quantifications peuvent être utilisées sur les configurations sous forme de deux Mac Studio M3 Ultra avec 512 Go. L'accès via les abeilles et l'interface Web est plutôt plus facile, offert par des fournisseurs tels que Novitaai ou Parasail sur des plateformes telles que OpenRouter.

Base de résultats d'évaluation du modèle

Référence Métrique Tir Base kimi k2 Fond de profondeur Qwen2.5-72b Llama 4 Maverick
Tâches générales
MMLU Em 5 ruptures 87.8 87.1 86.1 84.9
Mmlu-pro Em 5 ruptures 69.2 60.6 62.8 63.5
Mmlu-dedux-2.0 Em 5 ruptures 90.2 89.5 87.8 88.2
Simpleqa Correct 5 ruptures 35.3 26.5 10.3 23.7
Triviaqa Em 5 ruptures 85.1 84.1 76.0 79.3
GPQA-Diamond Avg @ 8 5 ruptures 48.1 50.5 40.8 49.4
Supergpqa Em 5 ruptures 44.7 39.2 34.2 38.8
Tâches de codage
Livecodebench v6 Passer @ 1 1 tir 26.3 22.9 21.1 25.1
Évaluation Passer @ 1 80.3 65.6 66.0 65,5
Tâches mathématiques
Mathématiques Em 4 tirs 70.2 60.1 61.0 63.0
GSM8K Em 8 drop 92.1 91.7 90.4 86.3
Tâches chinoises
C-Eval Em 5 ruptures 92.5 90.0 90.9 80.9
Csimpleqa Correct 5 ruptures 77.6 72.1 50.5 53.5

Seuls les modèles prédictifs open source ont été évalués. Les résultats sont rapportés pour QWEN2.5-72B car le point de contrôle de base pour QWEN3-235B-A22B n'est pas open source au moment de l'étude.

Tous les modèles sont évalués en utilisant le même protocole d'évaluation.

Impact sur l'écosystème AI

Le lancement mondial presque contemporain vers le modèle Deepseek montre que l'industrie chinoise ouverte-source est de plus en plus pertinente. Kimi K2 est déjà considéré comme un moment historique similaire à la sortie du modèle Deepseek R1: un point de référence pour l'innovation ouverte. Des dizaines de milliers de fois en quelques jours en étreignant le visage ont été téléchargés.

Applications pratiques

Développement de logiciels

Kimi K2 est particulièrement utile pour les développeurs qui souhaitent le soutenir à partir des pipelines de développement: il peut écrire du code, effectuer des tests, corriger les bogues et les éléments indépendamment avec des outils tels que les expéditions bash_exec.

Prototypage et agents autonomes

Grâce à la conception agentique, il peut orchestrer la tâche en plusieurs étapes, s'intégrer aux abeilles externes et composer des actions complexes. Cela le rend adapté à la construction d'agents intelligents personnalisés sans utiliser de planificateurs externes.

Kimi K2, défis et limites

Complexité des infrastructures

Une utilisation efficace nécessite des infrastructures à grande capacité, que seules les organisations budgétaires importantes peuvent se permettre. Les opérations sur les dispositifs « Light » restent limités aux expériences avec une quantification extrême.

Incertitudes sur le comportement des agents

À l'heure actuelle, certaines des compétences agentiques proclamées par Moonshot n'ont pas encore été complètement reproduites ou vérifiées par la communauté scientifique. Il y a des doutes sur les échecs dans certaines tâches complexes, en particulier sans la supervision active ni les structures de conducteur.

Licence modifiée

Bien que le modèle SIA Open -weeght ait une clause dans la licence non compatible OSI: nécessite la vue du nom « Kimi K2 » si elle est utilisée dans des produits commerciaux à haut trafic (plus de 100 millions de MAU ou 20 millions USD USD).

Conclusions

Kimi K2 représente Un saut important en avant pour l'IA Open: combine d'excellentes performances, de faibles coûts et des compétences avancées dans un modèle de 1 billion de paramètres. Il représente une alternative crédible à GPT – 4.1 et Claude, en particulier dans les scénarios professionnels et de recherche. Cependant, le matériel et les complexités d'exploitation nécessaires limitent une adoption de masse à ce jour.

Ceux qui veulent en faire l'expérience à petite échelle peuvent le faire via des abeilles cloud; Ceux qui ont accès à des ressources importantes peuvent plutôt évaluer un déploiement complet pour stimuler les agents personnalisés. Moonshot, avec ce modèle, marque un autre chapitre dans l'expansion de l'IA accessible et flexible.