ApX 标志ApX 标志

趋近智

DeepSeek-V4-Flash

活跃参数

284B

上下文长度

1,000K

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

24 Apr 2026

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

64

键值头

1

注意力头维度

512

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

128

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

4,096

层数

43

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

1

分词器

词汇量大小

129,280

混合专家

专家参数总数

13.0B

专家数量

256

活跃专家

6

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 1,000k · Vocab: 129.3kx 43 layersRMSNormPre-AttentionMulti-Head Attention64Q / 1KV heads · SW: 128Head dim: 512+RMSNormPre-FFNSparse MoE FFN (6/256 experts)SwishIntermediate: 2k+Final RMSNormOutput Logits

DeepSeek-V4-Flash

DeepSeek-V4-Flash 是 DeepSeek V4 系列中一款快速、高效且经济的 MoE(混合专家)模型,总参数量为 284B,每个 token 激活参数量为 13B。它采用了与 V4-Pro 相同的混合 CSA+HCA 注意力架构,并支持 1M 上下文。在给予更大思考预算的情况下,DeepSeek-V4-Flash-Max 可实现与 V4-Pro 相当的推理性能。该模型在智能体 (agentic) 和编程任务上表现强劲(SWE-Bench Verified 79.0%,Terminal-Bench 2.0 56.9%),较小的参数规模实现了更快的响应速度。支持 Non-think、Think High 和 Think Max 推理模式。可通过 API 以 deepseek-v4-flash 名义访问。该模型于 2026 年 4 月 24 日在 MIT 许可证下开源发布。

关于 DeepSeek V4

DeepSeek-V4 is DeepSeek's latest generation of highly efficient Mixture-of-Experts language models, featuring a novel hybrid attention architecture combining Compressed Sparse Attention (CSA) and Heavily Compressed Attention (HCA) that dramatically improves long-context efficiency. Pre-trained on 32T+ tokens with a comprehensive post-training pipeline including domain-specific expert cultivation and unified model consolidation. Both V4-Pro and V4-Flash support 1M context length as standard, with three reasoning effort modes (Non-think, Think High, Think Max). Released open-source under MIT license on April 24, 2026.


其他 DeepSeek V4 模型

评估基准

排名

#77

没有可用的 DeepSeek-V4-Flash 评估基准。

排名

排名

#77

编程排名

-

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
488k
977k

所需显存:

推荐 GPU