趋近智
活跃参数
671B
上下文长度
128K
模态
Text
架构
Mixture of Experts (MoE)
许可证
MIT
发布日期
10 Jan 2026
训练数据截止日期
Jul 2024
注意力
注意力结构
DeepSeek Sparse Attention
注意力头
128
键值头
1
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
7,168
层数
61
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
1
分词器
词汇量大小
129,280
混合专家
专家参数总数
37.0B
专家数量
256
活跃专家
8
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
3
DeepSeek-V3.2 Thinking 是一款先进的推理增强型语言模型,它将大规模强化学习与海量混合专家(MoE)架构相结合。作为 V3.2 系列的推理专用变体,它旨在通过显式的思维链(CoT)过程,优先保证逻辑一致性和系统性问题解决能力。该模型针对数学、算法编程和多步智能体工作流等复杂领域进行了专门优化,在生成最终回答之前会先生成详细的推理轨迹。这种对模型内部逻辑的透明化处理,使得复杂输出的验证更加可靠,并支持复杂的工具集成场景。
在技术层面上,该模型采用了稀疏混合专家(MoE)框架,总参数量达 6710 亿,每个 token 激活 370 亿参数,以保持极高的计算效率。此版本的一个重大架构突破是引入了 DeepSeek 稀疏注意力(DSA)机制,将注意力机制的计算复杂度从二次方降低到了近线性。这一创新在多头潜变量注意力(MLA)架构下实现,使模型能够以显著降低的内存和计算开销处理长上下文序列。该模型还采用了群体相对策略优化(GRPO)强化学习框架,通过利用基于群体的基线而非独立的评论员(critic)网络来稳定训练过程。
DeepSeek-V3.2 Thinking 专为高要求的推理应用而设计,包括科学研究、复杂软件逻辑调试以及执行自主智能体任务。它支持 128k 的上下文窗口,并引入了“带工具思考”能力,允许模型交替进行推理和 API 调用。训练过程中引入的多 Token 预测(MTP)进一步增强了其内部表示能力,使其在重推理基准测试中实现了更快的收敛和更稳健的性能。该模型以 MIT 许可证发布,为寻求在本地或企业环境中部署前沿级推理能力的研发人员提供了开源权重基础。
DeepSeek-V3 是一款混合专家 (MoE) 语言模型,总参数量为 6710 亿 (671B),每个 token 激活的参数量为 370 亿 (37B)。其架构采用了多头潜在注意力 (Multi-head Latent Attention) 和 DeepSeekMoE,旨在实现高效的推理与训练。技术创新包括无辅助损失的负载均衡策略以及多 token 预测 (MTP) 目标,该模型在 14.8 万亿 (14.8T) tokens 的语料上训练而成。
排名
#43
| 基准 | 分数 | 排名 |
|---|---|---|
0.74 | 7 | |
0.85 | 13 | |
研究生级问答 GPQA | 0.824 | 18 |
0.77 | 21 | |
专业知识 MMLU Pro | 0.85 | 21 |
0.40 | 31 | |
Web 开发 WebDev Arena | 1368 | 33 |
0.50 | 36 | |
0.65 | 49 |
APX AI
在线