ApX 标志ApX 标志

趋近智

DeepSeek-R1 1.5B

参数

1.5B

上下文长度

131K

模态

Text

架构

Dense

许可证

MIT

发布日期

27 Dec 2024

训练数据截止日期

-

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

5.14 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

131072 个令牌

67.79 GB VRAM

消费级

4x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 131K · Vocab: 151.9kx 28 layersRMSNormPre-AttentionMulti-Layer Attention32Q / 32KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 9k+Final RMSNormOutput Logits

评估基准

没有可用的 DeepSeek-R1 1.5B 评估基准。

排名

排名

-

编程排名

-

关于 DeepSeek-R1 1.5B

DeepSeek-R1 是由 DeepSeek AI 开发的一系列专注于推理的大语言模型。DeepSeek-R1-Distill-Qwen-1.5B 变体是该系列中的一款轻量化模型,专门旨在将更大规模 DeepSeek-R1 模型的复杂推理能力蒸馏到更具参数效率的架构中。该模型利用由更高能力的 DeepSeek-R1 模型生成的大量推理数据进行了微调。其主要目的是在计算资源受限的环境中,以适合部署的形态提供先进的语言理解和推理能力。

DeepSeek-R1-Distill-Qwen-1.5B 模型构建于 Transformer 架构之上,其基础结构源自 Qwen2.5-Math-1.5B 基座。该架构集成了多个确保高效运行的关键组件,包括用于处理序列长度的旋转位置嵌入(RoPE)、SwiGLU 激活函数以及用于稳定训练的 RMSNorm。虽然更广泛的 DeepSeek-R1 框架采用了混合专家(MoE)设计,但这个 1.5B 蒸馏变体使用的是稠密架构。其注意力机制采用了分组查询注意力(GQA),通过在多个注意力头之间共享键(Key)和值(Value)投影来优化注意力过程的计算效率,从而降低推理过程中的显存带宽需求。

该模型旨在为需要逻辑推导和分步解决问题的任务提供强健的性能,特别适用于数学解题、代码理解和通用文本推理等领域。DeepSeek-R1-Distill-Qwen-1.5B 模型的轻量化参数规模使其适合在标准消费级硬件或边缘设备上部署,无需庞大的计算基础设施即可实现本地执行。这一特性为寻求在资源敏感型应用中集成高级推理功能的反馈研究人员和开发人员提供了更广泛的便利性。

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

32

键值头

32

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,048

层数

28

FFN 中间层大小(稠密层)

8,960

多 Token 预测头数

-

分词器

词汇量大小

151,936

模型完整性

总分

B

65 / 100

关于 DeepSeek-R1

DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。


其他 DeepSeek-R1 模型
DeepSeek-R1 1.5B:规格和 GPU 显存要求