ApX 标志ApX 标志

趋近智

Kimi K2-Instruct

活跃参数

1T

上下文长度

128K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Modified MIT License

发布日期

11 Jul 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

64

键值头

64

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

50,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

7,168

层数

61

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

0

分词器

词汇量大小

163,840

混合专家

专家参数总数

32.0B

专家数量

384

活跃专家

8

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

1

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 7.2k · Context: 128K · Vocab: 163.8kx 61 layersRMSNormPre-AttentionMulti-Layer Attention64Q / 64KV headsHead dim: 112+RMSNormPre-FFNSparse MoE FFN (8/384 experts)SwiGLUIntermediate: 2k+Final RMSNormOutput Logits

Kimi K2-Instruct

Kimi K2-Instruct 是由月之暗面 (Moonshot AI) 开发的一款先进的混合专家 (MoE) 语言模型。该模型拥有 1 万亿总参数,每次推理过程中约激活 320 亿参数。其核心目标是提供尖端的智能体能力 (Agentic Intelligence),支持跨领域的复杂工具利用、高级代码生成和自主问题解决。作为一款经过后期训练的指令遵循变体,Kimi K2-Instruct 针对通用对话任务和复杂的智能体工作流进行了优化,是一款可直接应用的反射级 (Reflex-grade) 模型。

Kimi K2-Instruct 的架构设计采用混合专家范式,利用 384 个专业专家,推理时每个 token 动态选择 8 个激活专家。该模型包含 61 层,并采用了具有 64 个注意力头的多头本地注意力 (MLA) 机制。其训练方法的一个关键创新是由月之暗面开发的 MuonClip 优化器,它确保了在 15.5 万亿 token 的超大规模训练下的稳定性。该架构优先考虑长上下文效率,支持 128,000 token 的大幅上下文窗口。模型使用的激活函数为 SwiGLU,并辅以旋转位置嵌入 (RoPE)。

Kimi K2-Instruct 专为高要求应用而设计,包括复杂的多步推理任务和需要深度理解的分析工作流。其能力涵盖高级代码生成(从基础脚本编写到复杂的软件开发与调试),并为多语言应用提供强大支持。该模型表现出卓越的工具调用能力,能够自主解释用户意图,并编排外部工具和 API 以实现复杂目标。实际用例包括自动化开发工作流、生成详尽的数据分析报告,以及通过无缝集成多个外部服务来实现交互式任务规划。

关于 Kimi K2

月之暗面(Moonshot AI)的 Kimi K2 是一款混合专家(MoE)模型,总参数量达万亿级,每个 token 激活 320 亿参数。该模型专为智能体能力(agentic intelligence)而设计,采用包含 384 个专家的稀疏架构,并利用 MuonClip 优化器提升训练稳定性,支持 128K token 的上下文窗口。


其他 Kimi K2 模型

评估基准

排名

#90

基准分数排名

0.975

🥉

3

通用知识

MMLU

0.895

4

0.93

6

0.59

16

0.74

25

Web 开发

WebDev Arena

1408

31

研究生级问答

GPQA

0.751

36

专业知识

MMLU Pro

0.79

40

智能编程

LiveBench Agentic

0.32

42

0.42

52

0.58

53

0.43

57

排名

排名

#90

编程排名

#49

模型完整性

总分

B+

70 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU