趋近智
注意力
注意力结构
Multi-Head Attention
注意力头
64
键值头
8
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
131,072
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
8,192
层数
80
FFN 中间层大小(稠密层)
29,568
多 Token 预测头数
-
分词器
词汇量大小
152,064
Kimi-Dev-72B 是由月之暗面 (Moonshot AI) 开发的专用大语言模型,专为自主软件工程和复杂问题解决而设计。该模型基于 Qwen2.5-72B 基础架构构建,经过复杂的阶段性训练过程,旨在为软件开发任务植入结构化的技能先验。这一过程包括一个大规模的中期训练(mid-training)阶段,使用了约 1500 亿 token 来自 GitHub issue 和 pull request 提交的高质量真实数据,使模型能够内化人类开发者所采用的推理模式和技术工作流。与通用编程助手不同,Kimi-Dev-72B 经过优化,可作为自主智能体(autonomous agent)运行,具备定位相关文件并进行精确代码编辑的能力。
该模型的核心创新在于其双阶段框架,包含专门的“BugFixer”和“TestWriter”行为。这种架构实现了一个两步走的运行循环:首先,模型识别代码仓库中的相关文件(文件定位);其次,生成必要的代码修改或单元测试(代码编辑)。其训练方法利用了基于结果奖励的大规模强化学习 (RL),仅当模型提出的补丁在容器化 Docker 环境中成功通过整个测试套件时,才会获得正向强化。这种严谨的验证环节确保了生成的解决方案在功能上是正确的,并符合生产级标准。
Kimi-Dev-72B 旨在无缝集成到现代软件开发生命周期中,支持自动缺陷修复、单元测试生成和全面的代码审查等任务。通过采用推理时自博弈 (test-time self-play) 机制,模型能够迭代优化其输出,从而高效解决大规模代码库中的复杂问题。其 720 亿参数的稠密架构在推理能力和计算效率之间实现了稳健平衡,而 131,072 token 的上下文窗口使其能够深入理解宏大的项目结构和跨文件依赖。该模型以 MIT 许可证发布,向社区开放权重和源代码,以供进一步的研究与开发。
月之暗面(Moonshot AI)的 Kimi 模型系列(以 Kimi K2 为代表)采用总参数量达一万亿的混合专家(MoE)架构。该模型专为自然语言生成和智能体能力而设计,并拥有 128K token 的上下文窗口。该系列模型为开放权重模型,并利用 Muon 优化器进行优化以确保训练的稳定性。
没有可用的 Kimi-Dev-72B 评估基准。
APX AI
在线