趋近智
活跃参数
1T
上下文长度
512K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Modified MIT License
发布日期
5 Feb 2026
训练数据截止日期
Oct 2025
注意力
注意力结构
Multi-Head Attention
注意力头
64
键值头
64
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
50,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
7,168
层数
61
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
0
分词器
词汇量大小
163,840
混合专家
专家参数总数
968.0B
专家数量
384
活跃专家
8
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
1
Kimi K2.5 是由月之暗面 (Moonshot AI) 开发的高容量混合专家 (MoE) 大语言模型,旨在应对大规模的复杂推理和多模态任务。该模型建立在庞大的万亿级参数架构之上,采用稀疏激活策略,每次前向传播仅利用 320 亿个激活参数,在保持计算效率的同时提供深度的表征能力。其独特之处在于原生多模态训练,视觉和语言组件在初始预训练阶段即在约 15 万亿个 token 上进行协同训练,从而实现了对视觉数据和文本信息的统一处理。
在技术层面,Kimi K2.5 集成了多项架构创新,最显著的是采用了多头潜注意力 (MLA) 机制和专门的 384 专家 MoE 结构。该注意力机制针对高吞吐量推理和长上下文性能进行了优化,支持高达 256,000 个 token 的上下文窗口。该模型还引入了“Agent Swarm”(智能体集群)范式,这是一个通过并行智能体强化学习 (PARL) 训练的自主多智能体编排系统。这使得模型能够将复杂目标分解为由多达 100 个并行子智能体执行的独立子任务,从而显著降低重度依赖工具的工作流中的串行执行延迟。
在实际应用中,Kimi K2.5 作为一款多功能引擎,可胜任高级编程、文档合成和自动化推理等任务。它具有四种不同的运行模式:直觉 (Instant)、思考 (Thinking)、智能体 (Agent) 和智能体集群 (Agent Swarm),允许用户根据任务需求平衡响应速度和推理深度。其原生视觉编程能力支持将 UI 设计和视频工作流直接转换为功能代码,而其庞大的上下文窗口则有助于分析大型代码库和复杂的技术文档。该模型在万亿参数规模下的训练稳定性是通过 MuonClip 优化器实现的,该优化器有效缓解了稀疏架构中常见的 Loss 突刺问题。
月之暗面(Moonshot AI)的 Kimi K2 是一款混合专家(MoE)模型,总参数量达万亿级,每个 token 激活 320 亿参数。该模型专为智能体能力(agentic intelligence)而设计,采用包含 384 个专家的稀疏架构,并利用 MuonClip 优化器提升训练稳定性,支持 128K token 的上下文窗口。
排名
#23
| 基准 | 分数 | 排名 |
|---|---|---|
0.78 | 10 | |
0.85 | 14 | |
Web 开发 WebDev Arena | 1429 | 15 |
StackUnseen ProLLM Stack Unseen | 0.649 | 19 |
0.61 | 20 | |
0.48 | 21 | |
0.76 | 22 |
APX AI
在线