趋近智
参数
14B
上下文长度
131K
模态
Text
架构
Dense
许可证
MIT License
发布日期
27 Dec 2024
训练数据截止日期
Jul 2024
注意力
注意力结构
Multi-Layer Attention
注意力头
80
键值头
80
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
131,072
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
5,120
层数
40
FFN 中间层大小(稠密层)
13,824
多 Token 预测头数
-
分词器
词汇量大小
152,064
DeepSeek-R1-Distill-Qwen-14B 是 DeepSeek-R1 系列中的一款稠密型大语言模型,专为高级推理能力而设计。该模型通过从强大的 671B DeepSeek-R1(混合专家模型,MoE)中进行蒸馏而得,其基础架构源自 Qwen 2.5 14B 模型。该蒸馏过程的主要目标是将 DeepSeek-R1 复杂的推理技能(特别是在数学和编程领域)高效地迁移到参数规模更小、计算效率更高的稠密模型中。
在技术架构上,DeepSeek-R1-Distill-Qwen-14B 基于 Transformer 框架。它整合了旋转位置嵌入(RoPE)以实现有效的位置编码,采用 SwiGLU 作为激活函数,并使用 RMSNorm 进行稳健的归一化。其注意力机制包含 QKV 偏置,这是其所继承的 Qwen 2.5 系列的典型特征。与其原型的 DeepSeek-R1 不同,该变体保持了稠密架构,旨在优化直接参数利用率,而非采用专家稀疏性。
该模型旨在支持超长上下文,最高可达 131,072 个 token,从而便于处理大规模输入。其应用范围涵盖各种自然语言处理任务,包括文本生成、数据分析和代码合成。源自 DeepSeek-R1 的血统彰显了其在复杂推理任务中的精通程度,使其适用于数学解题和编程。此外,该模型支持少样本(few-shot)和零样本(zero-shot)学习范式,并针对本地部署进行了优化,可灵活通过 API 集成到各种应用中。
DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。
没有可用的 DeepSeek-R1 14B 评估基准。
APX AI
在线