DeepSeek-V4-Pro

开源

开放权重

活跃参数

1.6T

上下文长度

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

24 Apr 2026

训练数据截止日期

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

3361.63 GB VRAM

消费级

251x RTX 4090

24GB VRAM

数据中心

58x NVIDIA A100

80GB VRAM

Apple Silicon

56x Apple M3 Max

128GB VRAM

1000000 个令牌

3492.67 GB VRAM

消费级

264x RTX 4090

24GB VRAM

数据中心

61x NVIDIA A100

80GB VRAM

Apple Silicon

59x Apple M3 Max

128GB VRAM

架构图

评估基准

排名

#22

基准	分数	排名
Web 开发 WebDev Arena	1462	18
通用文本 Text Arena	1457	19

排名

#22

编程排名

#39

关于 DeepSeek-V4-Pro

DeepSeek-V4-Pro 是 DeepSeek 的旗舰级开源模型，拥有 1.6T 总参数，每个 token 激活 49B 参数。该模型采用了一种新型的 CSA+HCA 混合注意力机制，相较于 DeepSeek-V3.2，仅需 27% 的推理 FLOPs 和 10% 的 KV 缓存即可实现 1M 上下文支持。在 Think Max 模式（DeepSeek-V4-Pro-Max）下，它取得了开源领域最先进的（SOTA）性能：SWE-Bench Verified 80.6%、SWE-Bench Pro 55.4%、Terminal-Bench 2.0 67.9%、MRCR 1M 83.5%、GPQA Diamond 90.1%、LiveCodeBench 93.5% 以及 Codeforces Rating 3206。该模型支持 Non-think、Think High 和 Think Max 三种推理模式，可通过 API 使用（模型标识符为 deepseek-v4-pro），并于 2026 年 4 月 24 日在 MIT 许可证下正式开源。

技术规格

注意力

注意力结构

DeepSeek Sparse Attention

注意力头

128

键值头

注意力头维度

512

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

128

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

7,168

层数

FFN 中间层大小（稠密层）

3,072

多 Token 预测头数

分词器

词汇量大小

129,280

混合专家

专家参数总数

49.0B

专家数量

384

活跃专家

共享专家数

FFN 中间层大小（每专家）

3,072

MoE 前的稠密层数

资源

官方文档下载权重

关于 DeepSeek V4

DeepSeek-V4 is DeepSeek's latest generation of highly efficient Mixture-of-Experts language models, featuring a novel hybrid attention architecture combining Compressed Sparse Attention (CSA) and Heavily Compressed Attention (HCA) that dramatically improves long-context efficiency. Pre-trained on 32T+ tokens with a comprehensive post-training pipeline including domain-specific expert cultivation and unified model consolidation. Both V4-Pro and V4-Flash support 1M context length as standard, with three reasoning effort modes (Non-think, Think High, Think Max). Released open-source under MIT license on April 24, 2026.

其他 DeepSeek V4 模型

DeepSeek-V4-Flash