ApX 标志ApX 标志

趋近智

DeepSeek-R1 671B

活跃参数

671B

上下文长度

131.072K

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT License

发布日期

27 Dec 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

128

键值头

128

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

2,048

层数

61

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

1

分词器

词汇量大小

129,280

混合专家

专家参数总数

37.0B

专家数量

64

活跃专家

6

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

3

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 131.1k · Vocab: 129.3kx 61 layersRMSNormPre-AttentionMulti-Layer Attention128Q / 128KV headsHead dim: 16+RMSNormPre-FFNSparse MoE FFN (6/64 experts)SwishIntermediate: 2k+Final RMSNormOutput Logits

DeepSeek-R1 671B

DeepSeek-R1 是由 DeepSeek 开发的一类先进推理模型,旨在助力复杂的计算任务和逻辑推理。它基于混合专家 (MoE) 架构构建,总参数量达 6710 亿,每次推理过程中激活的参数量约为 370 亿。该架构继承自 DeepSeek-V3 基座模型,引入了多头潜在注意力 (MLA) 机制以高效处理大规模数据集,并采用了无辅助损失策略,以在训练期间实现有效的负载均衡。该模型还进一步利用多 Token 预测 (MTP) 技术来提高预测准确性并加速输出生成。

DeepSeek-R1 的训练方法强调通过强化学习 (RL) 来培养卓越的推理能力。最初,其前身 DeepSeek-R1-Zero 在没有进行初步监督微调 (SFT) 的情况下,通过大规模强化学习展现出了诸如自我验证和生成多步思维链 (CoT) 序列等涌现出的推理行为。DeepSeek-R1 通过在强化学习阶段之前整合少量“冷启动”数据改进了这一方法,解决了在 DeepSeek-R1-Zero 中观察到的诸如输出重复和语言混杂等挑战,从而提升了模型的稳定性和整体推理性能。DeepSeek-R1 的训练流程具体包括两个强化学习阶段(侧重于发现更优的推理模式并对齐人类偏好)以及两个监督微调阶段(用于初始化模型的推理和非推理能力)。

DeepSeek-R1 旨在在需要分析性思维的领域(包括高等数学、编程和科学探索)中表现出色。其设计支持超长上下文长度,能够处理长输入。为了扩大适用范围和部署选项,DeepSeek 还发布了多个 DeepSeek-R1 的蒸馏版本,参数量从 15 亿到 700 亿不等。这些较小的模型旨在保留完整模型的大部分推理能力,使其适用于计算资源受限的环境。

关于 DeepSeek-R1

DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。


其他 DeepSeek-R1 模型

评估基准

排名

#79

基准分数排名

0.964

5

0.956

9

0.774

16

0.57

17

0.524

22

研究生级问答

GPQA

0.81

22

专业知识

MMLU Pro

0.83

26

Web 开发

WebDev Arena

1398

37

通用文本

Text Arena

1398

53

排名

排名

#79

编程排名

#94

模型完整性

总分

B+

76 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU

DeepSeek-R1 671B:规格和 GPU 显存要求