趋近智
参数
70B
上下文长度
32.768K
模态
Text
架构
Dense
许可证
MIT License
发布日期
27 Dec 2024
训练数据截止日期
-
注意力
注意力结构
Multi-Layer Attention
注意力头
112
键值头
112
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
8,192
层数
80
FFN 中间层大小(稠密层)
28,672
多 Token 预测头数
-
分词器
词汇量大小
128,256
DeepSeek-R1 是由 DeepSeek 开发的一系列先进大语言模型,其设计初衷是重点增强推理能力。DeepSeek-R1-Distill-Llama-70B 变体是知识蒸馏的产物,它利用了规模更大的 DeepSeek-R1 模型的推理优势,并将其迁移到 Llama-3.3-70B-Instruct 基础架构中。这一蒸馏过程旨在创建一个性能强大的模型,在保留其基础架构的效率和运行特性的同时,继承复杂的推理模式。
在架构上,DeepSeek-R1-Distill-Llama-70B 是一款稠密 Transformer 模型,这使其区别于原始 DeepSeek-R1 的混合专家(MoE)架构。它采用了具有 112 个注意力头的多头注意力(MLA)机制,有助于对输入序列进行全面处理。该模型集成了旋转位置嵌入(RoPE)以有效处理序列中的位置信息,并利用 Flash Attention 来优化计算效率。这种配置使模型能够处理极长的上下文长度,支持解决复杂问题。
该模型专为通用文本生成、代码生成以及跨领域的复杂问题解决而设计,适用于需要逻辑推断和多步推理的场景。其设计优先考虑高效部署,使其适用于需要考虑计算资源的应用场景,包括在消费级硬件上的部署。DeepSeek-R1-Distill-Llama-70B 特别擅长处理需要结构化思维过程的任务,如数学问题解答和生成连贯代码,从而将其用途扩展到各种技术和研究应用中。
DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。
没有可用的 DeepSeek-R1 70B 评估基准。
APX AI
在线