趋近智
活跃参数
671B
上下文长度
131.072K
模态
Text
架构
Mixture of Experts (MoE)
许可证
MIT License
发布日期
27 Dec 2024
训练数据截止日期
-
注意力
注意力结构
Multi-Layer Attention
注意力头
128
键值头
128
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
2,048
层数
61
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
1
分词器
词汇量大小
129,280
混合专家
专家参数总数
37.0B
专家数量
64
活跃专家
6
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
3
DeepSeek-R1 是由 DeepSeek 开发的一类先进推理模型,旨在助力复杂的计算任务和逻辑推理。它基于混合专家 (MoE) 架构构建,总参数量达 6710 亿,每次推理过程中激活的参数量约为 370 亿。该架构继承自 DeepSeek-V3 基座模型,引入了多头潜在注意力 (MLA) 机制以高效处理大规模数据集,并采用了无辅助损失策略,以在训练期间实现有效的负载均衡。该模型还进一步利用多 Token 预测 (MTP) 技术来提高预测准确性并加速输出生成。
DeepSeek-R1 的训练方法强调通过强化学习 (RL) 来培养卓越的推理能力。最初,其前身 DeepSeek-R1-Zero 在没有进行初步监督微调 (SFT) 的情况下,通过大规模强化学习展现出了诸如自我验证和生成多步思维链 (CoT) 序列等涌现出的推理行为。DeepSeek-R1 通过在强化学习阶段之前整合少量“冷启动”数据改进了这一方法,解决了在 DeepSeek-R1-Zero 中观察到的诸如输出重复和语言混杂等挑战,从而提升了模型的稳定性和整体推理性能。DeepSeek-R1 的训练流程具体包括两个强化学习阶段(侧重于发现更优的推理模式并对齐人类偏好)以及两个监督微调阶段(用于初始化模型的推理和非推理能力)。
DeepSeek-R1 旨在在需要分析性思维的领域(包括高等数学、编程和科学探索)中表现出色。其设计支持超长上下文长度,能够处理长输入。为了扩大适用范围和部署选项,DeepSeek 还发布了多个 DeepSeek-R1 的蒸馏版本,参数量从 15 亿到 700 亿不等。这些较小的模型旨在保留完整模型的大部分推理能力,使其适用于计算资源受限的环境。
DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。
排名
#79
| 基准 | 分数 | 排名 |
|---|---|---|
QA 助手 ProLLM QA Assistant | 0.964 | 5 |
StackEval ProLLM Stack Eval | 0.956 | 9 |
0.774 | 16 | |
0.57 | 17 | |
StackUnseen ProLLM Stack Unseen | 0.524 | 22 |
研究生级问答 GPQA | 0.81 | 22 |
专业知识 MMLU Pro | 0.83 | 26 |
Web 开发 WebDev Arena | 1398 | 37 |
通用文本 Text Arena | 1398 | 53 |
APX AI
在线