趋近智
参数
32B
上下文长度
131K
模态
Text
架构
Dense
许可证
MIT License
发布日期
27 Dec 2024
训练数据截止日期
Jul 2024
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
4x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
131072 个令牌
消费级
25x RTX 4090
24GB VRAM
数据中心
7x NVIDIA A100
80GB VRAM
Apple Silicon
5x Apple M3 Max
128GB VRAM
没有可用的 DeepSeek-R1 32B 评估基准。
排名
-
编程排名
-
DeepSeek-R1-Distill-Qwen-32B 模型是大语言模型领域的一项重要贡献,专为高级推理任务而设计。该模型是一个蒸馏版本,利用了规模更大的 DeepSeek-R1 模型的高级推理能力,并将其迁移到效率更高的 320 亿参数架构中。它基于 Qwen2.5 系列基座模型构建,并使用由原始 DeepSeek-R1 生成的 80 万条精选推理样本进行了微调,使其能够以较少的参数量执行复杂的决策和问题解决,适用于更广泛的部署场景。
从架构角度来看,DeepSeek-R1-Distill-Qwen-32B 是一个稠密 Transformer 模型。它采用了 RoPE(旋转位置嵌入)机制来处理序列位置信息,并利用 FlashAttention-2 优化注意力计算,从而提升了效率和吞吐量。该模型设计的上下文长度高达 131,072 个 token,能够处理和生成对于详细分析任务至关重要的长序列。这种架构设计在保持可控计算开销的同时,优先考虑了有效的推理和生成能力。
该模型的主要应用场景包括复杂问题解决、高级数学推理以及在多种编程语言中的强大代码性能。它兼容 vLLM 和 SGLang 等主流部署框架,便于集成到各种应用和研究项目中。DeepSeek-R1-Distill-Qwen-32B 模型基于 MIT 许可证发布,支持商业用途,并允许修改和开发衍生作品(包括进一步蒸馏)。这种许可方式促进了机器学习社区内的开放研究和广泛采用。
注意力
注意力结构
Multi-Layer Attention
注意力头
96
键值头
96
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
131,072
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
8,192
层数
60
FFN 中间层大小(稠密层)
27,648
多 Token 预测头数
-
分词器
词汇量大小
152,064
DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。
APX AI
在线