ApX 标志ApX 标志

趋近智

Gemma 3 27B

参数

27B

上下文长度

128K

模态

Multimodal

架构

Dense

许可证

Gemma Terms of Use

发布日期

12 Mar 2025

训练数据截止日期

Aug 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

64

键值头

16

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

-

维度

隐藏维度大小

4,096

层数

46

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 128Kx 46 layersRMSNormPre-AttentionGrouped-Query Attention64Q / 16KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkActivation+Final RMSNormOutput Logits

Gemma 3 27B

Gemma 3 是由 Google DeepMind 开发的一系列轻量级、最先进的模型,采用了源自 Gemini 模型的研究成果与技术。Gemma 3 27B 变体是一款多模态模型,旨在处理文本和图像输入并生成文本输出。该模型变体适用于广泛的生成任务,包括问答、摘要和复杂推理,并支持 140 多种语言。其设计重点在于支持在多种硬件上部署,从笔记本电脑、工作站等消费级设备到专用的云端基础设施。

关于 Gemma 3

Gemma 3 是由 Google 推出的一系列开放、轻量化的模型。它引入了多模态图像与文本处理能力,支持超过 140 种语言,并具备高达 128K token 的扩展上下文窗口。该家族提供多种参数规模的模型,以适用于多样化的应用场景。


其他 Gemma 3 模型

评估基准

排名

#114

基准分数排名

0.913

13

0.802

13

0.372

28

0.05

36

Web 开发

WebDev Arena

1365

52

通用文本

Text Arena

1365

65

排名

排名

#114

编程排名

#133

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU

Gemma 3 27B:规格和 GPU 显存要求