趋近智
参数
270M
上下文长度
32K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
14 Aug 2025
训练数据截止日期
Aug 2024
注意力
注意力结构
Multi-Head Attention
注意力头
16
键值头
16
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
GELU
维度
隐藏维度大小
1,024
层数
12
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemma 3 270M 是由 Google 开发的一款紧凑型开放权重语言模型,专为在边缘设备和资源受限环境中的超高效部署而设计。作为 Gemma 3 家族中体量最小的成员,它优先考虑特定任务的专门化,而非通用能力的广度。该模型具有独特的结构设计,其嵌入参数相对于 Transformer 块占比较高,从而支持 25.6 万令牌的大规模词表,使其能够精确处理 140 多种语言中的罕见令牌、多语言文本和领域特定术语。
从技术角度看,该模型采用基于稠密 Transformer 的架构,包含 12 个 Transformer 层,隐藏层维度为 1024。它整合了旋转位置嵌入 (RoPE) 和 RMSNorm 等现代架构改进,以确保在大规模训练和推理过程中的稳定性。与 Gemma 3 系列中较大的多模态同类模型不同,270M 变体是专为低延迟执行而优化的纯文本模型。它采用了交错注意力结构,将本地滑动窗口注意力与全局自注意力相结合,在支持 32,768 个令牌的上下文窗口的同时,有效管理了内存开销。
Gemma 3 270M 主要针对微调而设计,可作为文本分类、实体提取和意图路由等专门应用的基础模型。其极小的内存占用使其能够完全在移动电话和物联网 (IoT) 硬件等设备端运行,且能耗极低。通过在海量的 6 万亿令牌语料库上进行训练,该模型在其体量下实现了极高的知识密度和强大的指令遵循能力,为寻求部署不依赖云端基础设施的私有、本地化 AI 解决方案的开发者提供了专业级选择。
Gemma 3 是由 Google 推出的一系列开放、轻量化的模型。它引入了多模态图像与文本处理能力,支持超过 140 种语言,并具备高达 128K token 的扩展上下文窗口。该家族提供多种参数规模的模型,以适用于多样化的应用场景。
没有可用的 Gemma 3 270M 评估基准。
APX AI
在线