趋近智
参数
7B
上下文长度
131K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
27 Dec 2024
训练数据截止日期
-
注意力
注意力结构
Multi-Layer Attention
注意力头
64
键值头
64
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
18,944
多 Token 预测头数
-
分词器
词汇量大小
152,064
DeepSeek-R1-Distill-Qwen-7B 是由 DeepSeek AI 研发的一款拥有 70 亿参数的语言模型。该模型变体采用稠密架构,是通过对规模更大的 DeepSeek-R1 系统进行知识蒸馏而衍生的。其主要设计目标是提供强大的推理能力,专注于数学推理、逻辑分析和代码生成等领域。蒸馏方法使该模型能够在更具计算效率的格式中封装先进的问题解决能力,使其适用于因资源限制而需要较小空间占用且不显著降低推理性能的部署场景。
DeepSeek-R1-Distill-Qwen-7B 的架构基础源自 Qwen2.5-Math-7B 模型。该蒸馏模型的训练方案侧重于从 DeepSeek-R1 教师模型中迁移复杂的推理行为。这一过程利用了包含约 80 万个精选样本的大型数据集。这些样本由容量更大的 DeepSeek-R1 生成,被分为约 60 万个侧重推理的示例和 20 万个非推理示例,从而促进认知模式的有针对性迁移。该模型采用了多头潜在注意力(MLA)机制,并集成旋转位置嵌入(RoPE)进行位置编码,同时使用 YaRN 等上下文扩展技术来扩展其运行上下文。
在实际应用方面,DeepSeek-R1-Distill-Qwen-7B 被配置为支持扩展的上下文理解,能够处理高达 131,072 个 token 的输入序列。这种扩展的上下文窗口增强了其处理复杂多步问题的能力,而这类问题通常需要对输入内容有广泛的理解。该模型定位用于各种需要分析精准度的技术应用,包括自动定理证明、复杂算法问题解决以及高级编程辅助。其紧凑的设计结合专业的推理能力,使其成为需要本地化推理或部署在消费级硬件上的系统的理想选择。
DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。
没有可用的 DeepSeek-R1 7B 评估基准。
APX AI
在线