ApX 标志ApX 标志

趋近智

Kimi K2-Base

活跃参数

1T

上下文长度

128K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Modified MIT License

发布日期

11 Jul 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

64

键值头

64

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

50,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

7,168

层数

61

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

0

分词器

词汇量大小

163,840

混合专家

专家参数总数

32.0B

专家数量

384

活跃专家

8

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

1

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 7.2k · Context: 128K · Vocab: 163.8kx 61 layersRMSNormPre-AttentionMulti-Layer Attention64Q / 64KV headsHead dim: 112+RMSNormPre-FFNSparse MoE FFN (8/384 experts)SwiGLUIntermediate: 2k+Final RMSNormOutput Logits

Kimi K2-Base

Kimi K2-Base 是由月之暗面(Moonshot AI)开发的基础大语言模型,专为需要针对特定应用进行定制化开发的评估人员和开发者设计。该模型旨在增强智能体(Agentic)任务处理能力,涵盖高级代码生成、多步问题解决以及对外部工具和 API 的自主利用。它为在法律分析、科学研究和专业对话界面等不同领域开发定制化人工智能系统提供了坚实的平台。

在架构上,Kimi K2-Base 采用了混合专家(Mixture-of-Experts, MoE)Transformer 模型。该模型拥有 1 万亿总参数量,每次推理时激活 320 亿参数。其架构集成了 384 个专业专家,每个 Token 动态选择 8 个专家进行输入处理。其开发中的一项关键创新是月之暗面专有的 MuonClip 优化器,该优化器通过缓解注意力机制 Logit 爆炸问题,解决了大规模模型训练中的不稳定性。模型的内部结构包括 61 层,注意力机制隐层维度为 7168,并采用了 64 个注意力头以及 SwiGLU 激活函数。

Kimi K2-Base 模型支持 128,000 个 Token 的超长上下文窗口,使其能够有效处理和分析长文本输入及多轮交互。这种设计提升了推理效率,并使其适用于需要广泛上下文理解的应用场景。它对智能体化智能(Agentic Intelligence)的优化,意味着它具备解读目标并在无需持续人工干预的情况下执行复杂工作流的能力。该模型在 15.5 万亿 Token 的海量数据集上进行了预训练,支撑了其在各种知识、推理和编程任务中的卓越表现。

关于 Kimi K2

月之暗面(Moonshot AI)的 Kimi K2 是一款混合专家(MoE)模型,总参数量达万亿级,每个 token 激活 320 亿参数。该模型专为智能体能力(agentic intelligence)而设计,采用包含 384 个专家的稀疏架构,并利用 MuonClip 优化器提升训练稳定性,支持 128K token 的上下文窗口。


其他 Kimi K2 模型

评估基准

排名

#70

基准分数排名

0.93

6

通用知识

MMLU

0.878

7

研究生级问答

GPQA

0.758

34

排名

排名

#70

编程排名

-

模型完整性

总分

B

66 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU