ApX 标志ApX 标志

趋近智

Kimi K2.5

活跃参数

1T

上下文长度

512K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Modified MIT License

发布日期

5 Feb 2026

训练数据截止日期

Oct 2025

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

64

键值头

64

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

50,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

7,168

层数

61

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

0

分词器

词汇量大小

163,840

混合专家

专家参数总数

968.0B

专家数量

384

活跃专家

8

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

1

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 7.2k · Context: 512k · Vocab: 163.8kx 61 layersRMSNormPre-AttentionMulti-Head Attention64Q / 64KV headsHead dim: 112+RMSNormPre-FFNSparse MoE FFN (8/384 experts)SwiGLUIntermediate: 2k+Final RMSNormOutput Logits

Kimi K2.5

Kimi K2.5 是由月之暗面 (Moonshot AI) 开发的高容量混合专家 (MoE) 大语言模型,旨在应对大规模的复杂推理和多模态任务。该模型建立在庞大的万亿级参数架构之上,采用稀疏激活策略,每次前向传播仅利用 320 亿个激活参数,在保持计算效率的同时提供深度的表征能力。其独特之处在于原生多模态训练,视觉和语言组件在初始预训练阶段即在约 15 万亿个 token 上进行协同训练,从而实现了对视觉数据和文本信息的统一处理。

在技术层面,Kimi K2.5 集成了多项架构创新,最显著的是采用了多头潜注意力 (MLA) 机制和专门的 384 专家 MoE 结构。该注意力机制针对高吞吐量推理和长上下文性能进行了优化,支持高达 256,000 个 token 的上下文窗口。该模型还引入了“Agent Swarm”(智能体集群)范式,这是一个通过并行智能体强化学习 (PARL) 训练的自主多智能体编排系统。这使得模型能够将复杂目标分解为由多达 100 个并行子智能体执行的独立子任务,从而显著降低重度依赖工具的工作流中的串行执行延迟。

在实际应用中,Kimi K2.5 作为一款多功能引擎,可胜任高级编程、文档合成和自动化推理等任务。它具有四种不同的运行模式:直觉 (Instant)、思考 (Thinking)、智能体 (Agent) 和智能体集群 (Agent Swarm),允许用户根据任务需求平衡响应速度和推理深度。其原生视觉编程能力支持将 UI 设计和视频工作流直接转换为功能代码,而其庞大的上下文窗口则有助于分析大型代码库和复杂的技术文档。该模型在万亿参数规模下的训练稳定性是通过 MuonClip 优化器实现的,该优化器有效缓解了稀疏架构中常见的 Loss 突刺问题。

关于 Kimi K2

月之暗面(Moonshot AI)的 Kimi K2 是一款混合专家(MoE)模型,总参数量达万亿级,每个 token 激活 320 亿参数。该模型专为智能体能力(agentic intelligence)而设计,采用包含 384 个专家的稀疏架构,并利用 MuonClip 优化器提升训练稳定性,支持 128K token 的上下文窗口。


其他 Kimi K2 模型

评估基准

排名

#23

基准分数排名

0.78

10

0.85

14

Web 开发

WebDev Arena

1429

15

0.649

19

0.61

20

智能编程

LiveBench Agentic

0.48

21

0.76

22

排名

排名

#23

编程排名

#24

模型完整性

总分

B

69 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
250k
500k

所需显存:

推荐 GPU