ApX 标志ApX 标志

趋近智

Gemma 3 12B

参数

12B

上下文长度

128K

模态

Multimodal

架构

Dense

许可证

Gemma Terms of Use

发布日期

12 Mar 2025

训练数据截止日期

Aug 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

48

键值头

12

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

-

维度

隐藏维度大小

3,072

层数

42

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 3.1k · Context: 128Kx 42 layersRMSNormPre-AttentionGrouped-Query Attention48Q / 12KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkActivation+Final RMSNormOutput Logits

Gemma 3 12B

Gemma 3 12B 是由 Google 开发的一款拥有 120 亿参数的多模态模型,旨在处理文本和图像输入并生成文本输出。该模型属于 Gemma 系列,基于 Gemini 系列模型所采用的基础研究和技术构建而成。其架构设计采用仅解码器(decoder-only)的 Transformer 结构,并结合了分组查询注意力(GQA)机制,其中包含一种独特的模式:每五层局部滑动窗口自注意力层交替嵌套一层全局自注意力层。这种配置旨在优化 KV 缓存内存利用率,从而提高效率,特别是在处理长序列时。位置编码通过旋转位置嵌入(RoPE)处理,并针对扩展的上下文窗口调整了更高的基准频率。

Gemma 3 12B 针对多种硬件配置进行了部署优化,可在单 GPU 系统、工作站、笔记本电脑甚至移动设备上高效运行。其多模态能力是通过集成定制的 SigLIP 视觉编码器实现的,该编码器将图像转换为一系列软标记(soft tokens)以进行处理。该模型支持 128,000 个标记的超长上下文,使其能够在单个提示词中处理大量信息,包括长篇文档和多张图像。此外,它还提供广泛的多语言支持,涵盖 140 多种语言。

Gemma 3 12B 的典型用例包括高级自然语言理解与生成任务,如问答、全面摘要和复杂推理。其多模态能力扩展到图像解读、视觉数据中的对象识别以及从图像中提取文本信息,使其适用于各种视觉语言应用。该模型还支持函数调用(function calling),便于开发用于编程交互的自然语言接口。

关于 Gemma 3

Gemma 3 是由 Google 推出的一系列开放、轻量化的模型。它引入了多模态图像与文本处理能力,支持超过 140 种语言,并具备高达 128K token 的扩展上下文窗口。该家族提供多种参数规模的模型,以适用于多样化的应用场景。


其他 Gemma 3 模型

评估基准

排名

#85

基准分数排名

Web 开发

WebDev Arena

1342

60

通用文本

Text Arena

1341

71

排名

排名

#85

编程排名

#70

模型完整性

总分

B

69 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU