DeepSeek-V4-Flash

开源

开放权重

活跃参数

284B

上下文长度

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

24 Apr 2026

训练数据截止日期

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

597.99 GB VRAM

消费级

32x RTX 4090

24GB VRAM

数据中心

9x NVIDIA A100

80GB VRAM

Apple Silicon

7x Apple M3 Max

128GB VRAM

1000000 个令牌

690.37 GB VRAM

消费级

38x RTX 4090

24GB VRAM

数据中心

10x NVIDIA A100

80GB VRAM

Apple Silicon

8x Apple M3 Max

128GB VRAM

架构图

评估基准

排名

#44

基准	分数	排名
通用文本 Text Arena	1434	39

排名

#44

编程排名

关于 DeepSeek-V4-Flash

DeepSeek-V4-Flash 是 DeepSeek V4 系列中一款快速、高效且经济的 MoE（混合专家）模型，总参数量为 284B，每个 token 激活参数量为 13B。它采用了与 V4-Pro 相同的混合 CSA+HCA 注意力架构，并支持 1M 上下文。在给予更大思考预算的情况下，DeepSeek-V4-Flash-Max 可实现与 V4-Pro 相当的推理性能。该模型在智能体 (agentic) 和编程任务上表现强劲（SWE-Bench Verified 79.0%，Terminal-Bench 2.0 56.9%），较小的参数规模实现了更快的响应速度。支持 Non-think、Think High 和 Think Max 推理模式。可通过 API 以 deepseek-v4-flash 名义访问。该模型于 2026 年 4 月 24 日在 MIT 许可证下开源发布。

技术规格

注意力

注意力结构

DeepSeek Sparse Attention

注意力头

键值头

注意力头维度

512

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

128

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

4,096

层数

FFN 中间层大小（稠密层）

2,048

多 Token 预测头数

分词器

词汇量大小

129,280

混合专家

专家参数总数

13.0B

专家数量

256

活跃专家

共享专家数

FFN 中间层大小（每专家）

2,048

MoE 前的稠密层数

资源

官方文档下载权重

关于 DeepSeek V4

DeepSeek-V4 is DeepSeek's latest generation of highly efficient Mixture-of-Experts language models, featuring a novel hybrid attention architecture combining Compressed Sparse Attention (CSA) and Heavily Compressed Attention (HCA) that dramatically improves long-context efficiency. Pre-trained on 32T+ tokens with a comprehensive post-training pipeline including domain-specific expert cultivation and unified model consolidation. Both V4-Pro and V4-Flash support 1M context length as standard, with three reasoning effort modes (Non-think, Think High, Think Max). Released open-source under MIT license on April 24, 2026.

其他 DeepSeek V4 模型

DeepSeek-V4-Pro