ApX 标志ApX 标志

趋近智

DeepSeek-V3.2

活跃参数

671B

上下文长度

128K

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

10 Jan 2026

训练数据截止日期

May 2025

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

1410.63 GB VRAM

消费级

86x RTX 4090

24GB VRAM

数据中心

22x NVIDIA A100

80GB VRAM

Apple Silicon

18x Apple M3 Max

128GB VRAM

128000 个令牌

1414.80 GB VRAM

消费级

87x RTX 4090

24GB VRAM

数据中心

22x NVIDIA A100

80GB VRAM

Apple Silicon

18x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 7.2k · Context: 128K · Vocab: 129.3kx 61 layersRMSNormPre-AttentionDeepSeek Sparse Attention128Q / 1KV headsHead dim: 56+RMSNormPre-FFNSparse MoE FFN (9/257 experts)SwiGLUIntermediate: 2k+Final RMSNormOutput Logits

评估基准

排名

#88

基准分数排名

0.70

11

0.76

20

智能编程

LiveBench Agentic

0.47

24

专业知识

MMLU Pro

0.83

27

研究生级问答

GPQA

0.799

29

通用文本

Text Arena

1425

42

0.44

47

0.64

47

0.45

51

Web 开发

WebDev Arena

1332

67

排名

排名

#88

编程排名

#48

关于 DeepSeek-V3.2

DeepSeek-V3.2 代表了大规模混合专家(MoE)架构部署的一次演进,专门针对智能体工作流和高级推理任务进行了优化。该模型拥有 6710 亿总参数,但通过对任何给定标记仅激活 370 亿参数,保持了极高的推理效率。这种稀疏激活策略使模型能够达到万亿参数级模型的表征能力,同时保持了较小稠密架构所特有的计算开销和延迟特征。其训练目标采用了多标记预测(MTP)策略,这增强了训练信号的密度,并提高了模型在复杂序列中规划后续输出的能力。

DeepSeek-V3.2 的架构基础建立在 DeepSeek 稀疏注意力(DSA)之上,这是对前代多头潜在注意力(MLA)的技术升级。DSA 通过对键值(KV)缓存采用低秩压缩,进一步优化了显存利用率和吞吐量,有效缓解了长文本生成中常见的内存瓶颈。该模型还引入了无辅助损失的负载均衡机制,通过动态偏置调整,根据 256 个路由专家和 1 个共享专家之间的实时亲和力分数进行标记路由,在确保高专家利用率的同时,避免了传统负载均衡惩罚带来的性能权衡。

在功能上,DeepSeek-V3.2 旨在为自主智能体和复杂问题解决环境提供高性能基础。它将“思考”模式直接集成到工具调用场景中,允许在执行外部函数调用之前进行多步推理。凭借 163,840 个标记的上下文窗口以及包含 14.8 万亿高质量标记的训练语料库,该模型适用于需要深度数学推理、竞赛编程能力和可靠多语言生成的企业级应用。该版本遵循 MIT 许可证,允许在学术研究和商业生产环境中广泛使用。

技术规格

注意力

注意力结构

DeepSeek Sparse Attention

注意力头

128

键值头

1

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

7,168

层数

61

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

1

分词器

词汇量大小

129,280

混合专家

专家参数总数

37.0B

专家数量

257

活跃专家

9

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

3

模型完整性

总分

B+

80 / 100

关于 DeepSeek-V3

DeepSeek-V3 是一款混合专家 (MoE) 语言模型,总参数量为 6710 亿 (671B),每个 token 激活的参数量为 370 亿 (37B)。其架构采用了多头潜在注意力 (Multi-head Latent Attention) 和 DeepSeekMoE,旨在实现高效的推理与训练。技术创新包括无辅助损失的负载均衡策略以及多 token 预测 (MTP) 目标,该模型在 14.8 万亿 (14.8T) tokens 的语料上训练而成。


其他 DeepSeek-V3 模型