ApX 标志ApX 标志

趋近智

Gemma 3 270M

参数

270M

上下文长度

32K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

14 Aug 2025

训练数据截止日期

Aug 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

16

键值头

16

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

GELU

维度

隐藏维度大小

1,024

层数

12

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 1k · Context: 32kx 12 layersRMSNormPre-AttentionMulti-Head Attention16Q / 16KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkGELU+Final RMSNormOutput Logits

Gemma 3 270M

Gemma 3 270M 是由 Google 开发的一款紧凑型开放权重语言模型,专为在边缘设备和资源受限环境中的超高效部署而设计。作为 Gemma 3 家族中体量最小的成员,它优先考虑特定任务的专门化,而非通用能力的广度。该模型具有独特的结构设计,其嵌入参数相对于 Transformer 块占比较高,从而支持 25.6 万令牌的大规模词表,使其能够精确处理 140 多种语言中的罕见令牌、多语言文本和领域特定术语。

从技术角度看,该模型采用基于稠密 Transformer 的架构,包含 12 个 Transformer 层,隐藏层维度为 1024。它整合了旋转位置嵌入 (RoPE) 和 RMSNorm 等现代架构改进,以确保在大规模训练和推理过程中的稳定性。与 Gemma 3 系列中较大的多模态同类模型不同,270M 变体是专为低延迟执行而优化的纯文本模型。它采用了交错注意力结构,将本地滑动窗口注意力与全局自注意力相结合,在支持 32,768 个令牌的上下文窗口的同时,有效管理了内存开销。

Gemma 3 270M 主要针对微调而设计,可作为文本分类、实体提取和意图路由等专门应用的基础模型。其极小的内存占用使其能够完全在移动电话和物联网 (IoT) 硬件等设备端运行,且能耗极低。通过在海量的 6 万亿令牌语料库上进行训练,该模型在其体量下实现了极高的知识密度和强大的指令遵循能力,为寻求部署不依赖云端基础设施的私有、本地化 AI 解决方案的开发者提供了专业级选择。

关于 Gemma 3

Gemma 3 是由 Google 推出的一系列开放、轻量化的模型。它引入了多模态图像与文本处理能力,支持超过 140 种语言,并具备高达 128K token 的扩展上下文窗口。该家族提供多种参数规模的模型,以适用于多样化的应用场景。


其他 Gemma 3 模型

评估基准

没有可用的 Gemma 3 270M 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
31k

所需显存:

推荐 GPU

Gemma 3 270M:规格和 GPU 显存要求