ApX 标志ApX 标志

趋近智

DeepSeek-R1 8B

参数

8B

上下文长度

64K

模态

Text

架构

Dense

许可证

MIT License

发布日期

27 Dec 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

64

键值头

64

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

40

FFN 中间层大小(稠密层)

14,336

多 Token 预测头数

-

分词器

词汇量大小

128,256

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 64K · Vocab: 128.3kx 40 layersRMSNormPre-AttentionMulti-Layer Attention64Q / 64KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 14.3k+Final RMSNormOutput Logits

DeepSeek-R1 8B

DeepSeek-R1 是一个致力于增强大语言模型推理能力的模型系列。其基础模型 DeepSeek-R1-Zero 通过大规模强化学习 (RL) 实现创新,在无需初始有监督微调 (SFT) 阶段的情况下,展现出了涌现的复杂推理能力。在此基础上,DeepSeek-R1 模型通过在强化学习阶段之前引入多阶段训练和冷启动数据进一步优化了这些能力,解决了初期存在的输出可读性和连贯性问题。

8B 变体(具体以 DeepSeek-R1-Distill-Llama-8B 或 DeepSeek-R1-0528-Qwen3-8B 为代表)对高效模型部署领域做出了重要贡献。这些模型采用稠密架构,并利用了知识蒸馏技术。其过程涉及使用由规模更大的 DeepSeek-R1 模型生成的高质量推理数据,对 Llama 或 Qwen 系列等较小的开源基座模型进行微调。这种蒸馏的目标是将大模型复杂的推理模式迁移到更紧凑的形态中,使 8B 变体能够在计算资源受限的环境中高效运行,同时在需要复杂逻辑推导的领域保持强劲性能。

应用于 8B 蒸馏模型的 DeepSeek-R1-0528 更新,通过后训练阶段的计算增强和算法优化,进一步提升了其推理和逻辑推导能力。该迭代版本展现了更深层次的思考能力,减少了幻觉现象,并增强了对函数调用 (function calling) 的支持。DeepSeek-R1 8B 模型适用于各种技术场景,包括前沿人工智能研究、自动化代码生成、数学解题以及需要强大逻辑演绎能力的通用自然语言处理任务。

关于 DeepSeek-R1

DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。


其他 DeepSeek-R1 模型

评估基准

没有可用的 DeepSeek-R1 8B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

66 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
31k
63k

所需显存:

推荐 GPU