ApX 标志ApX 标志

趋近智

DeepSeek-R1 32B

参数

32B

上下文长度

131K

模态

Text

架构

Dense

许可证

MIT License

发布日期

27 Dec 2024

训练数据截止日期

Jul 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

71.87 GB VRAM

消费级

4x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

131072 个令牌

474.57 GB VRAM

消费级

25x RTX 4090

24GB VRAM

数据中心

7x NVIDIA A100

80GB VRAM

Apple Silicon

5x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 8.2k · Context: 131K · Vocab: 152.1kx 60 layersRMSNormPre-AttentionMulti-Layer Attention96Q / 96KV headsHead dim: 85+RMSNormPre-FFNFeed-Forward NetworkSwishIntermediate: 27.6k+Final RMSNormOutput Logits

评估基准

没有可用的 DeepSeek-R1 32B 评估基准。

排名

排名

-

编程排名

-

关于 DeepSeek-R1 32B

DeepSeek-R1-Distill-Qwen-32B 模型是大语言模型领域的一项重要贡献,专为高级推理任务而设计。该模型是一个蒸馏版本,利用了规模更大的 DeepSeek-R1 模型的高级推理能力,并将其迁移到效率更高的 320 亿参数架构中。它基于 Qwen2.5 系列基座模型构建,并使用由原始 DeepSeek-R1 生成的 80 万条精选推理样本进行了微调,使其能够以较少的参数量执行复杂的决策和问题解决,适用于更广泛的部署场景。

从架构角度来看,DeepSeek-R1-Distill-Qwen-32B 是一个稠密 Transformer 模型。它采用了 RoPE(旋转位置嵌入)机制来处理序列位置信息,并利用 FlashAttention-2 优化注意力计算,从而提升了效率和吞吐量。该模型设计的上下文长度高达 131,072 个 token,能够处理和生成对于详细分析任务至关重要的长序列。这种架构设计在保持可控计算开销的同时,优先考虑了有效的推理和生成能力。

该模型的主要应用场景包括复杂问题解决、高级数学推理以及在多种编程语言中的强大代码性能。它兼容 vLLM 和 SGLang 等主流部署框架,便于集成到各种应用和研究项目中。DeepSeek-R1-Distill-Qwen-32B 模型基于 MIT 许可证发布,支持商业用途,并允许修改和开发衍生作品(包括进一步蒸馏)。这种许可方式促进了机器学习社区内的开放研究和广泛采用。

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

96

键值头

96

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

131,072

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

8,192

层数

60

FFN 中间层大小(稠密层)

27,648

多 Token 预测头数

-

分词器

词汇量大小

152,064

模型完整性

总分

B

67 / 100

关于 DeepSeek-R1

DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。


其他 DeepSeek-R1 模型