趋近智
活跃参数
1T
上下文长度
128K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Modified MIT License
发布日期
11 Jul 2025
训练数据截止日期
-
注意力
注意力结构
Multi-Layer Attention
注意力头
64
键值头
64
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
50,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
7,168
层数
61
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
0
分词器
词汇量大小
163,840
混合专家
专家参数总数
32.0B
专家数量
384
活跃专家
8
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
1
Kimi K2-Instruct 是由月之暗面 (Moonshot AI) 开发的一款先进的混合专家 (MoE) 语言模型。该模型拥有 1 万亿总参数,每次推理过程中约激活 320 亿参数。其核心目标是提供尖端的智能体能力 (Agentic Intelligence),支持跨领域的复杂工具利用、高级代码生成和自主问题解决。作为一款经过后期训练的指令遵循变体,Kimi K2-Instruct 针对通用对话任务和复杂的智能体工作流进行了优化,是一款可直接应用的反射级 (Reflex-grade) 模型。
Kimi K2-Instruct 的架构设计采用混合专家范式,利用 384 个专业专家,推理时每个 token 动态选择 8 个激活专家。该模型包含 61 层,并采用了具有 64 个注意力头的多头本地注意力 (MLA) 机制。其训练方法的一个关键创新是由月之暗面开发的 MuonClip 优化器,它确保了在 15.5 万亿 token 的超大规模训练下的稳定性。该架构优先考虑长上下文效率,支持 128,000 token 的大幅上下文窗口。模型使用的激活函数为 SwiGLU,并辅以旋转位置嵌入 (RoPE)。
Kimi K2-Instruct 专为高要求应用而设计,包括复杂的多步推理任务和需要深度理解的分析工作流。其能力涵盖高级代码生成(从基础脚本编写到复杂的软件开发与调试),并为多语言应用提供强大支持。该模型表现出卓越的工具调用能力,能够自主解释用户意图,并编排外部工具和 API 以实现复杂目标。实际用例包括自动化开发工作流、生成详尽的数据分析报告,以及通过无缝集成多个外部服务来实现交互式任务规划。
月之暗面(Moonshot AI)的 Kimi K2 是一款混合专家(MoE)模型,总参数量达万亿级,每个 token 激活 320 亿参数。该模型专为智能体能力(agentic intelligence)而设计,采用包含 384 个专家的稀疏架构,并利用 MuonClip 优化器提升训练稳定性,支持 128K token 的上下文窗口。
排名
#90
| 基准 | 分数 | 排名 |
|---|---|---|
QA 助手 ProLLM QA Assistant | 0.975 | 🥉 3 |
通用知识 MMLU | 0.895 | ⭐ 4 |
0.93 | 6 | |
0.59 | 16 | |
0.74 | 25 | |
Web 开发 WebDev Arena | 1408 | 31 |
研究生级问答 GPQA | 0.751 | 36 |
专业知识 MMLU Pro | 0.79 | 40 |
0.32 | 42 | |
0.42 | 52 | |
0.58 | 53 | |
0.43 | 57 |
APX AI
在线