趋近智
活跃参数
671B
上下文长度
131.072K
模态
Text
架构
Mixture of Experts (MoE)
许可证
DeepSeek Model License
发布日期
27 Dec 2024
训练数据截止日期
-
注意力
注意力结构
Multi-Layer Attention
注意力头
128
键值头
128
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
7,168
层数
61
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
1
分词器
词汇量大小
129,280
混合专家
专家参数总数
37.0B
专家数量
257
活跃专家
9
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
3
DeepSeek-V3 是一款大规模混合专家(MoE)语言模型,总参数量达 6710 亿,在推理过程中每个 token 激活 370 亿参数。该设计优先考虑高效推理和高性价比训练。该模型在包含 14.8 万亿个多样化、高质量 token 的海量数据集上进行了预训练。随后的训练阶段包括有监督微调(SFT)和强化学习(RL),以进一步增强其能力。DeepSeek-V3 代表了大语言模型设计的演进,在原有架构基础上引入了提升效率的新进展。
DeepSeek-V3 的架构核心融合了多项创新。它采用了多头潜在注意力(MLA)机制,通过将键值对压缩到低维潜在空间中来优化注意力操作,从而降低推理时的内存消耗。其混合专家组件被称为 DeepSeekMoE,采用了 256 个路由专家和 1 个共享专家,每个 token 动态地与 8 个专业专家以及该共享专家进行交互。该 MoE 架构的一项显著创新是无辅助损失的负载均衡策略,旨在跨专家分配计算负载,同时避免了通常与辅助损失函数相关的性能损耗。此外,DeepSeek-V3 引入了多 token 预测(MTP)训练目标,该目标通过训练模型同时预测多个未来的 token,增加了训练信号的密度,并被观察到能提升模型的整体性能。训练过程进一步利用了 FP8 混合精度,证明了其在极大规模下的可行性和有效性。模型采用旋转位置嵌入(RoPE)处理位置信息,并使用 RMSNorm 进行层内归一化。
DeepSeek-V3 旨在支持广泛的通用语言任务,在数学解题、高级代码开发和复杂推理等领域展现出卓越能力。其设计支持处理长文本上下文,支持高达 128K token 的上下文长度。这使得模型能够有效处理长文档和复杂的多轮对话。该模型在训练和推理方面的高效性,使其适用于需要巨大计算能力同时又要保持资源优化的应用场景。
DeepSeek-V3 是一款混合专家 (MoE) 语言模型,总参数量为 6710 亿 (671B),每个 token 激活的参数量为 370 亿 (37B)。其架构采用了多头潜在注意力 (Multi-head Latent Attention) 和 DeepSeekMoE,旨在实现高效的推理与训练。技术创新包括无辅助损失的负载均衡策略以及多 token 预测 (MTP) 目标,该模型在 14.8 万亿 (14.8T) tokens 的语料上训练而成。
排名
#53
| 基准 | 分数 | 排名 |
|---|---|---|
0.32 | 🥈 2 | |
StackEval ProLLM Stack Eval | 0.976 | 4 |
通用知识 MMLU | 0.885 | 6 |
QA 助手 ProLLM QA Assistant | 0.953 | 9 |
0.806 | 12 | |
0.55 | 20 | |
StackUnseen ProLLM Stack Unseen | 0.439 | 27 |
Web 开发 WebDev Arena | 1358 | 36 |
专业知识 MMLU Pro | 0.74 | 47 |
APX AI
在线