ApX 标志ApX 标志

趋近智

DeepSeek-V3 671B

活跃参数

671B

上下文长度

131.072K

模态

Text

架构

Mixture of Experts (MoE)

许可证

DeepSeek Model License

发布日期

27 Dec 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

128

键值头

128

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

7,168

层数

61

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

1

分词器

词汇量大小

129,280

混合专家

专家参数总数

37.0B

专家数量

257

活跃专家

9

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

3

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 7.2k · Context: 131.1k · Vocab: 129.3kx 61 layersRMSNormPre-AttentionMulti-Layer Attention128Q / 128KV headsHead dim: 56+RMSNormPre-FFNSparse MoE FFN (9/257 experts)SwishIntermediate: 2k+Final RMSNormOutput Logits

DeepSeek-V3 671B

DeepSeek-V3 是一款大规模混合专家(MoE)语言模型,总参数量达 6710 亿,在推理过程中每个 token 激活 370 亿参数。该设计优先考虑高效推理和高性价比训练。该模型在包含 14.8 万亿个多样化、高质量 token 的海量数据集上进行了预训练。随后的训练阶段包括有监督微调(SFT)和强化学习(RL),以进一步增强其能力。DeepSeek-V3 代表了大语言模型设计的演进,在原有架构基础上引入了提升效率的新进展。

DeepSeek-V3 的架构核心融合了多项创新。它采用了多头潜在注意力(MLA)机制,通过将键值对压缩到低维潜在空间中来优化注意力操作,从而降低推理时的内存消耗。其混合专家组件被称为 DeepSeekMoE,采用了 256 个路由专家和 1 个共享专家,每个 token 动态地与 8 个专业专家以及该共享专家进行交互。该 MoE 架构的一项显著创新是无辅助损失的负载均衡策略,旨在跨专家分配计算负载,同时避免了通常与辅助损失函数相关的性能损耗。此外,DeepSeek-V3 引入了多 token 预测(MTP)训练目标,该目标通过训练模型同时预测多个未来的 token,增加了训练信号的密度,并被观察到能提升模型的整体性能。训练过程进一步利用了 FP8 混合精度,证明了其在极大规模下的可行性和有效性。模型采用旋转位置嵌入(RoPE)处理位置信息,并使用 RMSNorm 进行层内归一化。

DeepSeek-V3 旨在支持广泛的通用语言任务,在数学解题、高级代码开发和复杂推理等领域展现出卓越能力。其设计支持处理长文本上下文,支持高达 128K token 的上下文长度。这使得模型能够有效处理长文档和复杂的多轮对话。该模型在训练和推理方面的高效性,使其适用于需要巨大计算能力同时又要保持资源优化的应用场景。

关于 DeepSeek-V3

DeepSeek-V3 是一款混合专家 (MoE) 语言模型,总参数量为 6710 亿 (671B),每个 token 激活的参数量为 370 亿 (37B)。其架构采用了多头潜在注意力 (Multi-head Latent Attention) 和 DeepSeekMoE,旨在实现高效的推理与训练。技术创新包括无辅助损失的负载均衡策略以及多 token 预测 (MTP) 目标,该模型在 14.8 万亿 (14.8T) tokens 的语料上训练而成。


其他 DeepSeek-V3 模型

评估基准

排名

#53

基准分数排名

0.32

🥈

2

0.976

4

通用知识

MMLU

0.885

6

0.953

9

0.806

12

0.55

20

0.439

27

Web 开发

WebDev Arena

1358

36

专业知识

MMLU Pro

0.74

47

排名

排名

#53

编程排名

#79

模型完整性

总分

B

68 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU

DeepSeek-V3 671B:规格和 GPU 显存要求