ApX 标志ApX 标志

趋近智

DeepSeek-V3.2 Thinking

活跃参数

671B

上下文长度

128K

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

10 Jan 2026

训练数据截止日期

Jul 2024

技术规格

专家参数总数

37.0B

专家数量

256

活跃专家

8

注意力结构

DeepSeek Sparse Attention

隐藏维度大小

7168

层数

61

注意力头

128

键值头

1

激活函数

SwigLU

归一化

RMS Normalization

位置嵌入

Absolute Position Embedding

DeepSeek-V3.2 Thinking

DeepSeek-V3.2 Thinking 是一款先进的推理增强型语言模型,它将大规模强化学习与海量混合专家(MoE)架构相结合。作为 V3.2 系列的推理专用变体,它旨在通过显式的思维链(CoT)过程,优先保证逻辑一致性和系统性问题解决能力。该模型针对数学、算法编程和多步智能体工作流等复杂领域进行了专门优化,在生成最终回答之前会先生成详细的推理轨迹。这种对模型内部逻辑的透明化处理,使得复杂输出的验证更加可靠,并支持复杂的工具集成场景。

在技术层面上,该模型采用了稀疏混合专家(MoE)框架,总参数量达 6710 亿,每个 token 激活 370 亿参数,以保持极高的计算效率。此版本的一个重大架构突破是引入了 DeepSeek 稀疏注意力(DSA)机制,将注意力机制的计算复杂度从二次方降低到了近线性。这一创新在多头潜变量注意力(MLA)架构下实现,使模型能够以显著降低的内存和计算开销处理长上下文序列。该模型还采用了群体相对策略优化(GRPO)强化学习框架,通过利用基于群体的基线而非独立的评论员(critic)网络来稳定训练过程。

DeepSeek-V3.2 Thinking 专为高要求的推理应用而设计,包括科学研究、复杂软件逻辑调试以及执行自主智能体任务。它支持 128k 的上下文窗口,并引入了“带工具思考”能力,允许模型交替进行推理和 API 调用。训练过程中引入的多 Token 预测(MTP)进一步增强了其内部表示能力,使其在重推理基准测试中实现了更快的收敛和更稳健的性能。该模型以 MIT 许可证发布,为寻求在本地或企业环境中部署前沿级推理能力的研发人员提供了开源权重基础。

关于 DeepSeek-V3

DeepSeek-V3 是一款混合专家 (MoE) 语言模型,总参数量为 6710 亿 (671B),每个 token 激活的参数量为 370 亿 (37B)。其架构采用了多头潜在注意力 (Multi-head Latent Attention) 和 DeepSeekMoE,旨在实现高效的推理与训练。技术创新包括无辅助损失的负载均衡策略以及多 token 预测 (MTP) 目标,该模型在 14.8 万亿 (14.8T) tokens 的语料上训练而成。


其他 DeepSeek-V3 模型

评估基准

排名

#37

基准分数排名

0.74

7

0.85

11

专业知识

MMLU Pro

0.85

17

0.77

19

研究生级问答

GPQA

0.82

19

智能编程

LiveBench Agentic

0.40

29

Web 开发

WebDev Arena

1373

31

0.50

33

0.65

46

排名

排名

#37

编程排名

#50

模型透明度

总分

B+

80 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU

DeepSeek-V3.2 Thinking:规格和 GPU 显存要求