趋近智
参数
12B
上下文长度
128K
模态
Multimodal
架构
Dense
许可证
Gemma Terms of Use
发布日期
12 Mar 2025
训练数据截止日期
Aug 2024
注意力
注意力结构
Grouped-Query Attention
注意力头
48
键值头
12
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
-
维度
隐藏维度大小
3,072
层数
42
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemma 3 12B 是由 Google 开发的一款拥有 120 亿参数的多模态模型,旨在处理文本和图像输入并生成文本输出。该模型属于 Gemma 系列,基于 Gemini 系列模型所采用的基础研究和技术构建而成。其架构设计采用仅解码器(decoder-only)的 Transformer 结构,并结合了分组查询注意力(GQA)机制,其中包含一种独特的模式:每五层局部滑动窗口自注意力层交替嵌套一层全局自注意力层。这种配置旨在优化 KV 缓存内存利用率,从而提高效率,特别是在处理长序列时。位置编码通过旋转位置嵌入(RoPE)处理,并针对扩展的上下文窗口调整了更高的基准频率。
Gemma 3 12B 针对多种硬件配置进行了部署优化,可在单 GPU 系统、工作站、笔记本电脑甚至移动设备上高效运行。其多模态能力是通过集成定制的 SigLIP 视觉编码器实现的,该编码器将图像转换为一系列软标记(soft tokens)以进行处理。该模型支持 128,000 个标记的超长上下文,使其能够在单个提示词中处理大量信息,包括长篇文档和多张图像。此外,它还提供广泛的多语言支持,涵盖 140 多种语言。
Gemma 3 12B 的典型用例包括高级自然语言理解与生成任务,如问答、全面摘要和复杂推理。其多模态能力扩展到图像解读、视觉数据中的对象识别以及从图像中提取文本信息,使其适用于各种视觉语言应用。该模型还支持函数调用(function calling),便于开发用于编程交互的自然语言接口。
Gemma 3 是由 Google 推出的一系列开放、轻量化的模型。它引入了多模态图像与文本处理能力,支持超过 140 种语言,并具备高达 128K token 的扩展上下文窗口。该家族提供多种参数规模的模型,以适用于多样化的应用场景。
排名
#85
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1342 | 60 |
通用文本 Text Arena | 1341 | 71 |
APX AI
在线