趋近智
活跃参数
1T
上下文长度
256K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Modified MIT License
发布日期
7 Nov 2025
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
64
键值头
64
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
50,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
7,168
层数
61
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
0
分词器
词汇量大小
163,840
混合专家
专家参数总数
32.0B
专家数量
384
活跃专家
8
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
1
Kimi K2 Thinking 是由月之暗面(Moonshot AI)开发的一款语言模型,被设计为专门的思考智能体,旨在执行复杂的多步推理和动态工具调用。该模型经过训练,能够将思维链(CoT)过程与函数调用有机结合,从而使其能够执行自主研究、编程和写作等复杂工作流,并能在数百个连续操作中保持性能而不出现连贯性衰减。其核心设计原则之一是原生 INT4 量化,该技术通过量化感知训练(QAT)应用,实现了高效推理,有助于在不损失性能的前提下显著降低推理延迟和 GPU 显存占用。
在架构方面,Kimi K2 Thinking 采用稀疏混合专家(MoE)范式,总参数量达 1 万亿,每次推理激活参数量为 320 亿。模型的内部结构包含 61 层,并采用了具有 64 个注意力头的多头潜变量注意力(MLA)机制。其使用的激活函数为 SwiGLU,词表大小为 160,000 个 token。该架构包含 384 个专家,在处理每个 token 时会选择其中的 8 个专家,并在其架构约束下针对持续的逐步推理进行了优化。
该模型具备 256,000 token 的超大上下文窗口,支持处理大规模文本输入,这对于长程任务、复杂调试或详尽的文档分析尤为有利。这种扩展的上下文容量结合其强大的工具编排能力,使 Kimi K2 Thinking 能够在 200 到 300 次连续工具调用中保持稳定的目标导向行为。这一能力解决了早期模型中常见的局限性,即在执行较少次数的连续步骤后往往会出现性能退化的问题。
月之暗面(Moonshot AI)的 Kimi K2 是一款混合专家(MoE)模型,总参数量达万亿级,每个 token 激活 320 亿参数。该模型专为智能体能力(agentic intelligence)而设计,采用包含 384 个专家的稀疏架构,并利用 MuonClip 优化器提升训练稳定性,支持 128K token 的上下文窗口。
排名
#50
| 基准 | 分数 | 排名 |
|---|---|---|
研究生级问答 GPQA | 0.845 | 13 |
StackUnseen ProLLM Stack Unseen | 0.761 | 15 |
0.81 | 22 | |
0.52 | 31 | |
0.63 | 32 | |
专业知识 MMLU Pro | 0.81 | 33 |
0.38 | 36 | |
0.67 | 43 | |
Web 开发 WebDev Arena | 1330 | 48 |
APX AI
在线