ApX 标志ApX 标志

趋近智

DeepSeek-V3.2

活跃参数

671B

上下文长度

128K

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

10 Jan 2026

训练数据截止日期

May 2025

技术规格

注意力

注意力结构

DeepSeek Sparse Attention

注意力头

128

键值头

1

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

7,168

层数

61

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

1

分词器

词汇量大小

129,280

混合专家

专家参数总数

37.0B

专家数量

257

活跃专家

9

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

3

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 7.2k · Context: 128k · Vocab: 129.3kx 61 layersRMSNormPre-AttentionDeepSeek Sparse Attention128Q / 1KV headsHead dim: 56+RMSNormPre-FFNSparse MoE FFN (9/257 experts)SwiGLUIntermediate: 2k+Final RMSNormOutput Logits

DeepSeek-V3.2

DeepSeek-V3.2 代表了大规模混合专家(MoE)架构部署的一次演进,专门针对智能体工作流和高级推理任务进行了优化。该模型拥有 6710 亿总参数,但通过对任何给定标记仅激活 370 亿参数,保持了极高的推理效率。这种稀疏激活策略使模型能够达到万亿参数级模型的表征能力,同时保持了较小稠密架构所特有的计算开销和延迟特征。其训练目标采用了多标记预测(MTP)策略,这增强了训练信号的密度,并提高了模型在复杂序列中规划后续输出的能力。

DeepSeek-V3.2 的架构基础建立在 DeepSeek 稀疏注意力(DSA)之上,这是对前代多头潜在注意力(MLA)的技术升级。DSA 通过对键值(KV)缓存采用低秩压缩,进一步优化了显存利用率和吞吐量,有效缓解了长文本生成中常见的内存瓶颈。该模型还引入了无辅助损失的负载均衡机制,通过动态偏置调整,根据 256 个路由专家和 1 个共享专家之间的实时亲和力分数进行标记路由,在确保高专家利用率的同时,避免了传统负载均衡惩罚带来的性能权衡。

在功能上,DeepSeek-V3.2 旨在为自主智能体和复杂问题解决环境提供高性能基础。它将“思考”模式直接集成到工具调用场景中,允许在执行外部函数调用之前进行多步推理。凭借 163,840 个标记的上下文窗口以及包含 14.8 万亿高质量标记的训练语料库,该模型适用于需要深度数学推理、竞赛编程能力和可靠多语言生成的企业级应用。该版本遵循 MIT 许可证,允许在学术研究和商业生产环境中广泛使用。

关于 DeepSeek-V3

DeepSeek-V3 是一款混合专家 (MoE) 语言模型,总参数量为 6710 亿 (671B),每个 token 激活的参数量为 370 亿 (37B)。其架构采用了多头潜在注意力 (Multi-head Latent Attention) 和 DeepSeekMoE,旨在实现高效的推理与训练。技术创新包括无辅助损失的负载均衡策略以及多 token 预测 (MTP) 目标,该模型在 14.8 万亿 (14.8T) tokens 的语料上训练而成。


其他 DeepSeek-V3 模型

评估基准

排名

#85

基准分数排名

0.70

11

0.76

19

智能编程

LiveBench Agentic

0.47

24

专业知识

MMLU Pro

0.83

27

研究生级问答

GPQA

0.799

29

0.44

46

0.64

47

Web 开发

WebDev Arena

1330

48

0.45

51

排名

排名

#85

编程排名

#35

模型完整性

总分

B+

80 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU