趋近智
活跃参数
671B
上下文长度
128K
模态
Text
架构
Mixture of Experts (MoE)
许可证
MIT
发布日期
10 Jan 2026
训练数据截止日期
Jul 2024
专家参数总数
37.0B
专家数量
256
活跃专家
8
注意力结构
DeepSeek Sparse Attention
隐藏维度大小
7168
层数
61
注意力头
128
键值头
1
激活函数
SwigLU
归一化
RMS Normalization
位置嵌入
Absolute Position Embedding
DeepSeek-V3.2 Thinking 是一款先进的推理增强型语言模型,它将大规模强化学习与海量混合专家(MoE)架构相结合。作为 V3.2 系列的推理专用变体,它旨在通过显式的思维链(CoT)过程,优先保证逻辑一致性和系统性问题解决能力。该模型针对数学、算法编程和多步智能体工作流等复杂领域进行了专门优化,在生成最终回答之前会先生成详细的推理轨迹。这种对模型内部逻辑的透明化处理,使得复杂输出的验证更加可靠,并支持复杂的工具集成场景。
在技术层面上,该模型采用了稀疏混合专家(MoE)框架,总参数量达 6710 亿,每个 token 激活 370 亿参数,以保持极高的计算效率。此版本的一个重大架构突破是引入了 DeepSeek 稀疏注意力(DSA)机制,将注意力机制的计算复杂度从二次方降低到了近线性。这一创新在多头潜变量注意力(MLA)架构下实现,使模型能够以显著降低的内存和计算开销处理长上下文序列。该模型还采用了群体相对策略优化(GRPO)强化学习框架,通过利用基于群体的基线而非独立的评论员(critic)网络来稳定训练过程。
DeepSeek-V3.2 Thinking 专为高要求的推理应用而设计,包括科学研究、复杂软件逻辑调试以及执行自主智能体任务。它支持 128k 的上下文窗口,并引入了“带工具思考”能力,允许模型交替进行推理和 API 调用。训练过程中引入的多 Token 预测(MTP)进一步增强了其内部表示能力,使其在重推理基准测试中实现了更快的收敛和更稳健的性能。该模型以 MIT 许可证发布,为寻求在本地或企业环境中部署前沿级推理能力的研发人员提供了开源权重基础。
DeepSeek-V3 是一款混合专家 (MoE) 语言模型,总参数量为 6710 亿 (671B),每个 token 激活的参数量为 370 亿 (37B)。其架构采用了多头潜在注意力 (Multi-head Latent Attention) 和 DeepSeekMoE,旨在实现高效的推理与训练。技术创新包括无辅助损失的负载均衡策略以及多 token 预测 (MTP) 目标,该模型在 14.8 万亿 (14.8T) tokens 的语料上训练而成。
排名
#37
| 基准 | 分数 | 排名 |
|---|---|---|
0.74 | 7 | |
0.85 | 11 | |
专业知识 MMLU Pro | 0.85 | 17 |
0.77 | 19 | |
研究生级问答 GPQA | 0.82 | 19 |
0.40 | 29 | |
Web 开发 WebDev Arena | 1373 | 31 |
0.50 | 33 | |
0.65 | 46 |