ApX 标志ApX 标志

趋近智

Kimi K2 Thinking

活跃参数

1T

上下文长度

256K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Modified MIT License

发布日期

7 Nov 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

64

键值头

64

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

50,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

7,168

层数

61

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

0

分词器

词汇量大小

163,840

混合专家

专家参数总数

32.0B

专家数量

384

活跃专家

8

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

1

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 7.2k · Context: 256k · Vocab: 163.8kx 61 layersRMSNormPre-AttentionMulti-Head Attention64Q / 64KV headsHead dim: 112+RMSNormPre-FFNSparse MoE FFN (8/384 experts)SwiGLUIntermediate: 2k+Final RMSNormOutput Logits

Kimi K2 Thinking

Kimi K2 Thinking 是由月之暗面(Moonshot AI)开发的一款语言模型,被设计为专门的思考智能体,旨在执行复杂的多步推理和动态工具调用。该模型经过训练,能够将思维链(CoT)过程与函数调用有机结合,从而使其能够执行自主研究、编程和写作等复杂工作流,并能在数百个连续操作中保持性能而不出现连贯性衰减。其核心设计原则之一是原生 INT4 量化,该技术通过量化感知训练(QAT)应用,实现了高效推理,有助于在不损失性能的前提下显著降低推理延迟和 GPU 显存占用。

在架构方面,Kimi K2 Thinking 采用稀疏混合专家(MoE)范式,总参数量达 1 万亿,每次推理激活参数量为 320 亿。模型的内部结构包含 61 层,并采用了具有 64 个注意力头的多头潜变量注意力(MLA)机制。其使用的激活函数为 SwiGLU,词表大小为 160,000 个 token。该架构包含 384 个专家,在处理每个 token 时会选择其中的 8 个专家,并在其架构约束下针对持续的逐步推理进行了优化。

该模型具备 256,000 token 的超大上下文窗口,支持处理大规模文本输入,这对于长程任务、复杂调试或详尽的文档分析尤为有利。这种扩展的上下文容量结合其强大的工具编排能力,使 Kimi K2 Thinking 能够在 200 到 300 次连续工具调用中保持稳定的目标导向行为。这一能力解决了早期模型中常见的局限性,即在执行较少次数的连续步骤后往往会出现性能退化的问题。

关于 Kimi K2

月之暗面(Moonshot AI)的 Kimi K2 是一款混合专家(MoE)模型,总参数量达万亿级,每个 token 激活 320 亿参数。该模型专为智能体能力(agentic intelligence)而设计,采用包含 384 个专家的稀疏架构,并利用 MuonClip 优化器提升训练稳定性,支持 128K token 的上下文窗口。


其他 Kimi K2 模型

评估基准

排名

#50

基准分数排名

研究生级问答

GPQA

0.845

13

0.761

15

0.81

22

0.52

31

0.63

32

专业知识

MMLU Pro

0.81

33

智能编程

LiveBench Agentic

0.38

36

0.67

43

Web 开发

WebDev Arena

1330

48

排名

排名

#50

编程排名

#68

模型完整性

总分

B

64 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
125k
250k

所需显存:

推荐 GPU