趋近智
活跃参数
671B
上下文长度
128K
模态
Text
架构
Mixture of Experts (MoE)
许可证
MIT License
发布日期
21 Aug 2025
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
128
键值头
128
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
7,168
层数
61
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
1
分词器
词汇量大小
129,280
混合专家
专家参数总数
37.0B
专家数量
257
活跃专家
8
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
3
一款支持聊天、推理和编程的混合型模型,提供“思考”与“非思考”两种模式。该模型采用专家混合(MoE)架构,具备海量的上下文长度和高效的架构设计。
DeepSeek-V3 是一款混合专家 (MoE) 语言模型,总参数量为 6710 亿 (671B),每个 token 激活的参数量为 370 亿 (37B)。其架构采用了多头潜在注意力 (Multi-head Latent Attention) 和 DeepSeekMoE,旨在实现高效的推理与训练。技术创新包括无辅助损失的负载均衡策略以及多 token 预测 (MTP) 目标,该模型在 14.8 万亿 (14.8T) tokens 的语料上训练而成。
排名
#93
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1418 | 17 |
0.47 | 24 | |
StackUnseen ProLLM Stack Unseen | 0.481 | 24 |
专业知识 MMLU Pro | 0.84 | 55 |
APX AI
在线