趋近智
参数
8B
上下文长度
64K
模态
Text
架构
Dense
许可证
MIT License
发布日期
27 Dec 2024
训练数据截止日期
-
注意力
注意力结构
Multi-Layer Attention
注意力头
64
键值头
64
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
40
FFN 中间层大小(稠密层)
14,336
多 Token 预测头数
-
分词器
词汇量大小
128,256
DeepSeek-R1 是一个致力于增强大语言模型推理能力的模型系列。其基础模型 DeepSeek-R1-Zero 通过大规模强化学习 (RL) 实现创新,在无需初始有监督微调 (SFT) 阶段的情况下,展现出了涌现的复杂推理能力。在此基础上,DeepSeek-R1 模型通过在强化学习阶段之前引入多阶段训练和冷启动数据进一步优化了这些能力,解决了初期存在的输出可读性和连贯性问题。
8B 变体(具体以 DeepSeek-R1-Distill-Llama-8B 或 DeepSeek-R1-0528-Qwen3-8B 为代表)对高效模型部署领域做出了重要贡献。这些模型采用稠密架构,并利用了知识蒸馏技术。其过程涉及使用由规模更大的 DeepSeek-R1 模型生成的高质量推理数据,对 Llama 或 Qwen 系列等较小的开源基座模型进行微调。这种蒸馏的目标是将大模型复杂的推理模式迁移到更紧凑的形态中,使 8B 变体能够在计算资源受限的环境中高效运行,同时在需要复杂逻辑推导的领域保持强劲性能。
应用于 8B 蒸馏模型的 DeepSeek-R1-0528 更新,通过后训练阶段的计算增强和算法优化,进一步提升了其推理和逻辑推导能力。该迭代版本展现了更深层次的思考能力,减少了幻觉现象,并增强了对函数调用 (function calling) 的支持。DeepSeek-R1 8B 模型适用于各种技术场景,包括前沿人工智能研究、自动化代码生成、数学解题以及需要强大逻辑演绎能力的通用自然语言处理任务。
DeepSeek-R1 是专为逻辑推理任务开发的模型系列。它采用了混合专家(MoE)架构,以实现卓越的计算效率和可扩展性。该系列模型利用了多头潜在注意力(MLA)技术,并在训练过程中应用了强化学习,其中部分变体还集成了冷启动数据。
没有可用的 DeepSeek-R1 8B 评估基准。
APX AI
在线