ApX 标志ApX 标志

趋近智

DeepSeek-R1 14B

参数

14B

上下文长度

131K

模态

Text

架构

Dense

许可证

MIT License

发布日期

27 Dec 2024

训练数据截止日期

Jul 2024

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

80

键值头

80

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

131,072

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

40

FFN 中间层大小(稠密层)

13,824

多 Token 预测头数

-

分词器

词汇量大小

152,064

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 5.1k · Context: 131K · Vocab: 152.1kx 40 layersRMSNormPre-AttentionMulti-Layer Attention80Q / 80KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 13.8k+Final RMSNormOutput Logits

DeepSeek-R1 14B

DeepSeek-R1-Distill-Qwen-14B 是 DeepSeek-R1 系列中的一款稠密型大语言模型,专为高级推理能力而设计。该模型通过从强大的 671B DeepSeek-R1(混合专家模型,MoE)中进行蒸馏而得,其基础架构源自 Qwen 2.5 14B 模型。该蒸馏过程的主要目标是将 DeepSeek-R1 复杂的推理技能(特别是在数学和编程领域)高效地迁移到参数规模更小、计算效率更高的稠密模型中。

在技术架构上,DeepSeek-R1-Distill-Qwen-14B 基于 Transformer 框架。它整合了旋转位置嵌入(RoPE)以实现有效的位置编码,采用 SwiGLU 作为激活函数,并使用 RMSNorm 进行稳健的归一化。其注意力机制包含 QKV 偏置,这是其所继承的 Qwen 2.5 系列的典型特征。与其原型的 DeepSeek-R1 不同,该变体保持了稠密架构,旨在优化直接参数利用率,而非采用专家稀疏性。

该模型旨在支持超长上下文,最高可达 131,072 个 token,从而便于处理大规模输入。其应用范围涵盖各种自然语言处理任务,包括文本生成、数据分析和代码合成。源自 DeepSeek-R1 的血统彰显了其在复杂推理任务中的精通程度,使其适用于数学解题和编程。此外,该模型支持少样本(few-shot)和零样本(zero-shot)学习范式,并针对本地部署进行了优化,可灵活通过 API 集成到各种应用中。

关于 DeepSeek-R1

DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。


其他 DeepSeek-R1 模型

评估基准

没有可用的 DeepSeek-R1 14B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

64 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU