ApX 标志ApX 标志

趋近智

Kimi-Dev-72B

参数

72B

上下文长度

131K

模态

Text

架构

Dense

许可证

MIT License

发布日期

16 Jun 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

64

键值头

8

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

131,072

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

8,192

层数

80

FFN 中间层大小(稠密层)

29,568

多 Token 预测头数

-

分词器

词汇量大小

152,064

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 8.2k · Context: 131K · Vocab: 152.1kx 80 layersRMSNormPre-AttentionMulti-Head Attention64Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 29.6k+Final RMSNormOutput Logits

Kimi-Dev-72B

Kimi-Dev-72B 是由月之暗面 (Moonshot AI) 开发的专用大语言模型,专为自主软件工程和复杂问题解决而设计。该模型基于 Qwen2.5-72B 基础架构构建,经过复杂的阶段性训练过程,旨在为软件开发任务植入结构化的技能先验。这一过程包括一个大规模的中期训练(mid-training)阶段,使用了约 1500 亿 token 来自 GitHub issue 和 pull request 提交的高质量真实数据,使模型能够内化人类开发者所采用的推理模式和技术工作流。与通用编程助手不同,Kimi-Dev-72B 经过优化,可作为自主智能体(autonomous agent)运行,具备定位相关文件并进行精确代码编辑的能力。

该模型的核心创新在于其双阶段框架,包含专门的“BugFixer”和“TestWriter”行为。这种架构实现了一个两步走的运行循环:首先,模型识别代码仓库中的相关文件(文件定位);其次,生成必要的代码修改或单元测试(代码编辑)。其训练方法利用了基于结果奖励的大规模强化学习 (RL),仅当模型提出的补丁在容器化 Docker 环境中成功通过整个测试套件时,才会获得正向强化。这种严谨的验证环节确保了生成的解决方案在功能上是正确的,并符合生产级标准。

Kimi-Dev-72B 旨在无缝集成到现代软件开发生命周期中,支持自动缺陷修复、单元测试生成和全面的代码审查等任务。通过采用推理时自博弈 (test-time self-play) 机制,模型能够迭代优化其输出,从而高效解决大规模代码库中的复杂问题。其 720 亿参数的稠密架构在推理能力和计算效率之间实现了稳健平衡,而 131,072 token 的上下文窗口使其能够深入理解宏大的项目结构和跨文件依赖。该模型以 MIT 许可证发布,向社区开放权重和源代码,以供进一步的研究与开发。

关于 Kimi

月之暗面(Moonshot AI)的 Kimi 模型系列(以 Kimi K2 为代表)采用总参数量达一万亿的混合专家(MoE)架构。该模型专为自然语言生成和智能体能力而设计,并拥有 128K token 的上下文窗口。该系列模型为开放权重模型,并利用 Muon 优化器进行优化以确保训练的稳定性。


其他 Kimi 模型
  • 没有相关模型

评估基准

没有可用的 Kimi-Dev-72B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU

Kimi-Dev-72B:规格和 GPU 显存要求