趋近智
活跃参数
671B
上下文长度
128K
模态
Text
架构
Mixture of Experts (MoE)
许可证
MIT
发布日期
10 Jan 2026
训练数据截止日期
May 2025
注意力
注意力结构
DeepSeek Sparse Attention
注意力头
128
键值头
1
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
7,168
层数
61
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
1
分词器
词汇量大小
129,280
混合专家
专家参数总数
37.0B
专家数量
257
活跃专家
9
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
3
DeepSeek-V3.2 代表了大规模混合专家(MoE)架构部署的一次演进,专门针对智能体工作流和高级推理任务进行了优化。该模型拥有 6710 亿总参数,但通过对任何给定标记仅激活 370 亿参数,保持了极高的推理效率。这种稀疏激活策略使模型能够达到万亿参数级模型的表征能力,同时保持了较小稠密架构所特有的计算开销和延迟特征。其训练目标采用了多标记预测(MTP)策略,这增强了训练信号的密度,并提高了模型在复杂序列中规划后续输出的能力。
DeepSeek-V3.2 的架构基础建立在 DeepSeek 稀疏注意力(DSA)之上,这是对前代多头潜在注意力(MLA)的技术升级。DSA 通过对键值(KV)缓存采用低秩压缩,进一步优化了显存利用率和吞吐量,有效缓解了长文本生成中常见的内存瓶颈。该模型还引入了无辅助损失的负载均衡机制,通过动态偏置调整,根据 256 个路由专家和 1 个共享专家之间的实时亲和力分数进行标记路由,在确保高专家利用率的同时,避免了传统负载均衡惩罚带来的性能权衡。
在功能上,DeepSeek-V3.2 旨在为自主智能体和复杂问题解决环境提供高性能基础。它将“思考”模式直接集成到工具调用场景中,允许在执行外部函数调用之前进行多步推理。凭借 163,840 个标记的上下文窗口以及包含 14.8 万亿高质量标记的训练语料库,该模型适用于需要深度数学推理、竞赛编程能力和可靠多语言生成的企业级应用。该版本遵循 MIT 许可证,允许在学术研究和商业生产环境中广泛使用。
DeepSeek-V3 是一款混合专家 (MoE) 语言模型,总参数量为 6710 亿 (671B),每个 token 激活的参数量为 370 亿 (37B)。其架构采用了多头潜在注意力 (Multi-head Latent Attention) 和 DeepSeekMoE,旨在实现高效的推理与训练。技术创新包括无辅助损失的负载均衡策略以及多 token 预测 (MTP) 目标,该模型在 14.8 万亿 (14.8T) tokens 的语料上训练而成。
排名
#85
| 基准 | 分数 | 排名 |
|---|---|---|
0.70 | 11 | |
0.76 | 19 | |
0.47 | 24 | |
专业知识 MMLU Pro | 0.83 | 27 |
研究生级问答 GPQA | 0.799 | 29 |
0.44 | 46 | |
0.64 | 47 | |
Web 开发 WebDev Arena | 1330 | 48 |
0.45 | 51 |
APX AI
在线