趋近智
活跃参数
1T
上下文长度
128K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Modified MIT License
发布日期
11 Jul 2025
训练数据截止日期
-
注意力
注意力结构
Multi-Layer Attention
注意力头
64
键值头
64
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
50,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
7,168
层数
61
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
0
分词器
词汇量大小
163,840
混合专家
专家参数总数
32.0B
专家数量
384
活跃专家
8
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
1
Kimi K2-Base 是由月之暗面(Moonshot AI)开发的基础大语言模型,专为需要针对特定应用进行定制化开发的评估人员和开发者设计。该模型旨在增强智能体(Agentic)任务处理能力,涵盖高级代码生成、多步问题解决以及对外部工具和 API 的自主利用。它为在法律分析、科学研究和专业对话界面等不同领域开发定制化人工智能系统提供了坚实的平台。
在架构上,Kimi K2-Base 采用了混合专家(Mixture-of-Experts, MoE)Transformer 模型。该模型拥有 1 万亿总参数量,每次推理时激活 320 亿参数。其架构集成了 384 个专业专家,每个 Token 动态选择 8 个专家进行输入处理。其开发中的一项关键创新是月之暗面专有的 MuonClip 优化器,该优化器通过缓解注意力机制 Logit 爆炸问题,解决了大规模模型训练中的不稳定性。模型的内部结构包括 61 层,注意力机制隐层维度为 7168,并采用了 64 个注意力头以及 SwiGLU 激活函数。
Kimi K2-Base 模型支持 128,000 个 Token 的超长上下文窗口,使其能够有效处理和分析长文本输入及多轮交互。这种设计提升了推理效率,并使其适用于需要广泛上下文理解的应用场景。它对智能体化智能(Agentic Intelligence)的优化,意味着它具备解读目标并在无需持续人工干预的情况下执行复杂工作流的能力。该模型在 15.5 万亿 Token 的海量数据集上进行了预训练,支撑了其在各种知识、推理和编程任务中的卓越表现。
月之暗面(Moonshot AI)的 Kimi K2 是一款混合专家(MoE)模型,总参数量达万亿级,每个 token 激活 320 亿参数。该模型专为智能体能力(agentic intelligence)而设计,采用包含 384 个专家的稀疏架构,并利用 MuonClip 优化器提升训练稳定性,支持 128K token 的上下文窗口。
APX AI
在线