Gemma 4 26B A4B

开源

开放权重

活跃参数

25.2B

上下文长度

256K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

2 Apr 2026

训练数据截止日期

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

54.68 GB VRAM

消费级

3x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

256000 个令牌

120.48 GB VRAM

消费级

6x RTX 4090

24GB VRAM

数据中心

2x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

排名

#40

基准	分数	排名
通用文本 Text Arena	1438	37
Web 开发 WebDev Arena	1360	54

排名

#40

编程排名

#63

关于 Gemma 4 26B A4B

Gemma 4 26B A4B 是一款混合专家 (MoE) 模型，总参数量为 25.2B，但每次推理仅激活 3.8B 参数，在提供接近 31B 模型性能的同时，实现了 4B 模型级的推理速度。该模型拥有 128 个专家（其中 8 个激活），配备 256K 上下文窗口，并支持文本和图像输入。它针对消费级 GPU 的快速推理进行了优化，同时具备前沿水平的推理和编程能力。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

键值头

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

1,024

滑动窗口比例

83.3%

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

GELU

维度

隐藏维度大小

2,112

层数

FFN 中间层大小（稠密层）

704

多 Token 预测头数

分词器

词汇量大小

262,144

混合专家

专家参数总数

3.8B

专家数量

128

活跃专家

共享专家数

FFN 中间层大小（每专家）

704

MoE 前的稠密层数

模型完整性

总分

70 / 100

上游

19.5 / 30

模型

26.5 / 40

下游

23.5 / 30

资源

官方文档下载权重源代码

关于 Gemma 4

Gemma 4 is Google DeepMind's most advanced open model family, built from Gemini 3 research and technology. Featuring both Dense and Mixture-of-Experts (MoE) architectures, these multimodal models handle text, images, and audio (on smaller variants), with context windows up to 256K tokens. Designed for frontier-level performance across reasoning, coding, and agentic workflows, Gemma 4 delivers unprecedented intelligence-per-parameter from mobile devices to enterprise servers. Released under Apache 2.0 license.