ApX 标志ApX 标志

趋近智

DeepSeek-V3.1

活跃参数

671B

上下文长度

128K

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT License

发布日期

21 Aug 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

128

键值头

128

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

7,168

层数

61

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

1

分词器

词汇量大小

129,280

混合专家

专家参数总数

37.0B

专家数量

257

活跃专家

8

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

3

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 7.2k · Context: 128k · Vocab: 129.3kx 61 layersRMSNormPre-AttentionMulti-Head Attention128Q / 128KV headsHead dim: 56+RMSNormPre-FFNSparse MoE FFN (8/257 experts)SwiGLUIntermediate: 2k+Final RMSNormOutput Logits

DeepSeek-V3.1

一款支持聊天、推理和编程的混合型模型,提供“思考”与“非思考”两种模式。该模型采用专家混合(MoE)架构,具备海量的上下文长度和高效的架构设计。

关于 DeepSeek-V3

DeepSeek-V3 是一款混合专家 (MoE) 语言模型,总参数量为 6710 亿 (671B),每个 token 激活的参数量为 370 亿 (37B)。其架构采用了多头潜在注意力 (Multi-head Latent Attention) 和 DeepSeekMoE,旨在实现高效的推理与训练。技术创新包括无辅助损失的负载均衡策略以及多 token 预测 (MTP) 目标,该模型在 14.8 万亿 (14.8T) tokens 的语料上训练而成。


其他 DeepSeek-V3 模型

评估基准

排名

#93

基准分数排名

Web 开发

WebDev Arena

1418

17

智能编程

LiveBench Agentic

0.47

24

0.481

24

专业知识

MMLU Pro

0.84

55

排名

排名

#93

编程排名

#49

模型完整性

总分

B

68 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU