ApX 标志ApX 标志

趋近智

DeepSeek-R1 70B

参数

70B

上下文长度

32.768K

模态

Text

架构

Dense

许可证

MIT License

发布日期

27 Dec 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

112

键值头

112

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

8,192

层数

80

FFN 中间层大小(稠密层)

28,672

多 Token 预测头数

-

分词器

词汇量大小

128,256

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 8.2k · Context: 32.8k · Vocab: 128.3kx 80 layersRMSNormPre-AttentionMulti-Layer Attention112Q / 112KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwishIntermediate: 28.7k+Final RMSNormOutput Logits

DeepSeek-R1 70B

DeepSeek-R1 是由 DeepSeek 开发的一系列先进大语言模型,其设计初衷是重点增强推理能力。DeepSeek-R1-Distill-Llama-70B 变体是知识蒸馏的产物,它利用了规模更大的 DeepSeek-R1 模型的推理优势,并将其迁移到 Llama-3.3-70B-Instruct 基础架构中。这一蒸馏过程旨在创建一个性能强大的模型,在保留其基础架构的效率和运行特性的同时,继承复杂的推理模式。

在架构上,DeepSeek-R1-Distill-Llama-70B 是一款稠密 Transformer 模型,这使其区别于原始 DeepSeek-R1 的混合专家(MoE)架构。它采用了具有 112 个注意力头的多头注意力(MLA)机制,有助于对输入序列进行全面处理。该模型集成了旋转位置嵌入(RoPE)以有效处理序列中的位置信息,并利用 Flash Attention 来优化计算效率。这种配置使模型能够处理极长的上下文长度,支持解决复杂问题。

该模型专为通用文本生成、代码生成以及跨领域的复杂问题解决而设计,适用于需要逻辑推断和多步推理的场景。其设计优先考虑高效部署,使其适用于需要考虑计算资源的应用场景,包括在消费级硬件上的部署。DeepSeek-R1-Distill-Llama-70B 特别擅长处理需要结构化思维过程的任务,如数学问题解答和生成连贯代码,从而将其用途扩展到各种技术和研究应用中。

关于 DeepSeek-R1

DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。


其他 DeepSeek-R1 模型

评估基准

没有可用的 DeepSeek-R1 70B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B-

62 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU