趋近智
参数
1B
上下文长度
33K
模态
Text
架构
Dense
许可证
Gemma License
发布日期
12 Mar 2025
训练数据截止日期
Aug 2024
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
1x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
32768 个令牌
消费级
1x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
没有可用的 Gemma 3 1B 评估基准。
排名
-
编程排名
-
Gemma 3 1B 是 Google 开发的 Gemma 3 系列中的一款轻量化语言模型 (SLM),专为在手机和 Web 应用程序等资源受限的设备上进行高效部署和运行而设计。该模型旨在实现 AI 能力的本地化执行,以解决用户数据隐私和云端推理成本的相关问题。其架构源自支撑 Gemini 系列模型的相同研究与技术,强调在紧凑的体积内实现最先进的性能。
在架构上,Gemma 3 1B 采用了仅解码器 (decoder-only) 的 Transformer 设计,针对文本生成等自回归任务进行了优化。Gemma 3 的一项显著创新是其交错注意力 (interleaved attention) 机制,该机制整合了全局和局部注意力层,以增强对长序列的上下文理解。这使得模型在处理长文档时,既能保持整体连贯性,又能保留较小章节内的细粒度细节。1B 变体拥有 32,000 个 token 的上下文窗口,能够处理大量的文本输入。它使用包含 262,000 个词条的 SentencePiece 分词器,支持超过 140 种语言,便于各种语言应用。与其较大的 Gemma 3 同类模型不同,1B 模型专门用于纯文本处理,不具备多模态能力。
Gemma 3 1B 专为高吞吐量而设计,表现出每秒处理高达 2585 个 token 的能力,可实现快速的内容处理。它针对包括 NVIDIA GPU、Google Cloud TPU 和 AMD GPU 在内的多种硬件平台进行了优化,确保了广泛的兼容性。该模型可以在内存极小的设备(如 4GB RAM 的设备)上有效运行。Gemma 3 1B 的实际应用场景包括:根据应用程序数据生成描述、为交互式角色创建上下文感知的对话、在即时通讯应用中建议上下文相关的回复,以及通过与 AI Edge RAG SDK 等技术集成,为长文档提供问答系统支持。该模型以开放权重形式提供,允许开发人员根据特定项目需求进行微调和部署。
注意力
注意力结构
Grouped-Query Attention
注意力头
16
键值头
4
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
-
维度
隐藏维度大小
1,536
层数
26
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemma 3 是由 Google 推出的一系列开放、轻量化的模型。它引入了多模态图像与文本处理能力,支持超过 140 种语言,并具备高达 128K token 的扩展上下文窗口。该家族提供多种参数规模的模型,以适用于多样化的应用场景。
APX AI
在线