趋近智
参数
4B
上下文长度
131.072K
模态
Multimodal
架构
Dense
许可证
Gemma License
发布日期
12 Mar 2025
训练数据截止日期
Aug 2024
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
-
维度
隐藏维度大小
2,048
层数
30
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemma 3 4B 是由 Google 开发的基础视觉语言模型,旨在处理文本和图像输入并生成文本输出。它是 Gemma 3 系列轻量级、尖端模型的一部分,该系列基于构建 Google Gemini 模型的相同研究和技术。这个 40 亿参数变体针对各种硬件环境的高效性能进行了优化,涵盖了从云端规模部署到工作站、笔记本电脑和移动设备上的设备端运行。
在架构方面,Gemma 3 4B 采用了仅解码器(decoder-only)的 Transformer 设计。其关键创新包括优化的注意力机制,该机制将局部滑动窗口自注意力层与全局自注意力层以 5:1 的比例交错排列,并减小了局部注意力的窗口大小。这种架构修改旨在降低 KV 缓存(KV-cache)的内存开销,从而在不损害困惑度(perplexity)的情况下,实现对超长上下文的高效处理。该模型利用自定义的 SigLIP 视觉编码器将 896x896 像素的正方形图像转换为语言模型的标记(Token),并采用“Pan&Scan”算法来处理不同宽高比或更高分辨率的图像。
Gemma 3 4B 专为广泛的生成式 AI 任务而设计,包括问答、摘要和复杂推理。其多模态能力使其能够对视觉数据进行全面的理解和分析,例如物体识别或从图像中提取文本。该模型支持 128,000 个 Token 的上下文窗口,并具备强大的多语言处理能力,支持超过 140 种语言。此外,它还集成了函数调用功能,支持创建能够与外部工具和应用程序编程接口(API)交互的智能代理。
Gemma 3 是由 Google 推出的一系列开放、轻量化的模型。它引入了多模态图像与文本处理能力,支持超过 140 种语言,并具备高达 128K token 的扩展上下文窗口。该家族提供多种参数规模的模型,以适用于多样化的应用场景。
排名
#103
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1303 | 60 |
APX AI
在线