ApX 标志ApX 标志

趋近智

Gemma 3 4B

参数

4B

上下文长度

131.072K

模态

Multimodal

架构

Dense

许可证

Gemma License

发布日期

12 Mar 2025

训练数据截止日期

Aug 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

-

维度

隐藏维度大小

2,048

层数

30

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 131.1kx 30 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkActivation+Final RMSNormOutput Logits

Gemma 3 4B

Gemma 3 4B 是由 Google 开发的基础视觉语言模型,旨在处理文本和图像输入并生成文本输出。它是 Gemma 3 系列轻量级、尖端模型的一部分,该系列基于构建 Google Gemini 模型的相同研究和技术。这个 40 亿参数变体针对各种硬件环境的高效性能进行了优化,涵盖了从云端规模部署到工作站、笔记本电脑和移动设备上的设备端运行。

在架构方面,Gemma 3 4B 采用了仅解码器(decoder-only)的 Transformer 设计。其关键创新包括优化的注意力机制,该机制将局部滑动窗口自注意力层与全局自注意力层以 5:1 的比例交错排列,并减小了局部注意力的窗口大小。这种架构修改旨在降低 KV 缓存(KV-cache)的内存开销,从而在不损害困惑度(perplexity)的情况下,实现对超长上下文的高效处理。该模型利用自定义的 SigLIP 视觉编码器将 896x896 像素的正方形图像转换为语言模型的标记(Token),并采用“Pan&Scan”算法来处理不同宽高比或更高分辨率的图像。

Gemma 3 4B 专为广泛的生成式 AI 任务而设计,包括问答、摘要和复杂推理。其多模态能力使其能够对视觉数据进行全面的理解和分析,例如物体识别或从图像中提取文本。该模型支持 128,000 个 Token 的上下文窗口,并具备强大的多语言处理能力,支持超过 140 种语言。此外,它还集成了函数调用功能,支持创建能够与外部工具和应用程序编程接口(API)交互的智能代理。

关于 Gemma 3

Gemma 3 是由 Google 推出的一系列开放、轻量化的模型。它引入了多模态图像与文本处理能力,支持超过 140 种语言,并具备高达 128K token 的扩展上下文窗口。该家族提供多种参数规模的模型,以适用于多样化的应用场景。


其他 Gemma 3 模型

评估基准

排名

#103

基准分数排名

Web 开发

WebDev Arena

1303

60

排名

排名

#103

编程排名

#72

模型完整性

总分

B

68 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU