趋近智
活跃参数
284B
上下文长度
1,000K
模态
Text
架构
Mixture of Experts (MoE)
许可证
MIT
发布日期
24 Apr 2026
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
64
键值头
1
注意力头维度
512
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000
滑动窗口注意力
Yes
滑动窗口大小
128
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
4,096
层数
43
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
1
分词器
词汇量大小
129,280
混合专家
专家参数总数
13.0B
专家数量
256
活跃专家
6
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
-
DeepSeek-V4-Flash 是 DeepSeek V4 系列中一款快速、高效且经济的 MoE(混合专家)模型,总参数量为 284B,每个 token 激活参数量为 13B。它采用了与 V4-Pro 相同的混合 CSA+HCA 注意力架构,并支持 1M 上下文。在给予更大思考预算的情况下,DeepSeek-V4-Flash-Max 可实现与 V4-Pro 相当的推理性能。该模型在智能体 (agentic) 和编程任务上表现强劲(SWE-Bench Verified 79.0%,Terminal-Bench 2.0 56.9%),较小的参数规模实现了更快的响应速度。支持 Non-think、Think High 和 Think Max 推理模式。可通过 API 以 deepseek-v4-flash 名义访问。该模型于 2026 年 4 月 24 日在 MIT 许可证下开源发布。
DeepSeek-V4 is DeepSeek's latest generation of highly efficient Mixture-of-Experts language models, featuring a novel hybrid attention architecture combining Compressed Sparse Attention (CSA) and Heavily Compressed Attention (HCA) that dramatically improves long-context efficiency. Pre-trained on 32T+ tokens with a comprehensive post-training pipeline including domain-specific expert cultivation and unified model consolidation. Both V4-Pro and V4-Flash support 1M context length as standard, with three reasoning effort modes (Non-think, Think High, Think Max). Released open-source under MIT license on April 24, 2026.
排名
#77
没有可用的 DeepSeek-V4-Flash 评估基准。
APX AI
在线