ApX 标志ApX 标志

趋近智

DeepSeek-R1 7B

参数

7B

上下文长度

131K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

27 Dec 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

64

键值头

64

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

18,944

多 Token 预测头数

-

分词器

词汇量大小

152,064

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 131K · Vocab: 152.1kx 32 layersRMSNormPre-AttentionMulti-Layer Attention64Q / 64KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 18.9k+Final RMSNormOutput Logits

DeepSeek-R1 7B

DeepSeek-R1-Distill-Qwen-7B 是由 DeepSeek AI 研发的一款拥有 70 亿参数的语言模型。该模型变体采用稠密架构,是通过对规模更大的 DeepSeek-R1 系统进行知识蒸馏而衍生的。其主要设计目标是提供强大的推理能力,专注于数学推理、逻辑分析和代码生成等领域。蒸馏方法使该模型能够在更具计算效率的格式中封装先进的问题解决能力,使其适用于因资源限制而需要较小空间占用且不显著降低推理性能的部署场景。

DeepSeek-R1-Distill-Qwen-7B 的架构基础源自 Qwen2.5-Math-7B 模型。该蒸馏模型的训练方案侧重于从 DeepSeek-R1 教师模型中迁移复杂的推理行为。这一过程利用了包含约 80 万个精选样本的大型数据集。这些样本由容量更大的 DeepSeek-R1 生成,被分为约 60 万个侧重推理的示例和 20 万个非推理示例,从而促进认知模式的有针对性迁移。该模型采用了多头潜在注意力(MLA)机制,并集成旋转位置嵌入(RoPE)进行位置编码,同时使用 YaRN 等上下文扩展技术来扩展其运行上下文。

在实际应用方面,DeepSeek-R1-Distill-Qwen-7B 被配置为支持扩展的上下文理解,能够处理高达 131,072 个 token 的输入序列。这种扩展的上下文窗口增强了其处理复杂多步问题的能力,而这类问题通常需要对输入内容有广泛的理解。该模型定位用于各种需要分析精准度的技术应用,包括自动定理证明、复杂算法问题解决以及高级编程辅助。其紧凑的设计结合专业的推理能力,使其成为需要本地化推理或部署在消费级硬件上的系统的理想选择。

关于 DeepSeek-R1

DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。


其他 DeepSeek-R1 模型

评估基准

没有可用的 DeepSeek-R1 7B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B-

62 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU