趋近智
参数
2B
上下文长度
8.192K
模态
Text
架构
Dense
许可证
Gemma License
发布日期
27 Jun 2024
训练数据截止日期
Jun 2024
注意力
注意力结构
Grouped-Query Attention
注意力头
16
键值头
4
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
GELU
维度
隐藏维度大小
2,048
层数
26
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemma 2 2B 是由 Google 开发的一款紧凑且先进的开源语言模型,它采用了与 Gemini 系列模型相同的底层研究和技术。该模型被设计为文本到文本(text-to-text)、仅解码器(decoder-only)的 Transformer 架构,提供英文版本,并包含权重开放的预训练和指令微调变体。其设计优先考虑效率,使其能够在从资源受限的边缘设备、消费级笔记本电脑到更强大的云端基础设施等各种计算环境中进行部署。这种可访问性促进了更多人参与到先进人工智能系统的开发与应用中。
Gemma 2 2B 的架构框架根植于仅解码器的 Transformer 设计,并融合了多项成熟及创新的组件。与其前身 Gemma 模型一致,其关键架构元素包括 8192 个 Token 的标准上下文长度,以及用于处理位置信息的旋转位置嵌入(RoPE)。该模型在激活函数方面采用了近似 GeGLU 的非线性设计。Gemma 2 的显著增强功能包括一种混合归一化方法,结合了后归一化(post-normalization)和带有 RMSNorm 的预归一化(pre-normalization),以增强训练稳定性和整体性能。此外,Gemma 2 2B 利用了分组查询注意力(GQA),这是一种优化的注意力机制,其中多个查询头共享单个键(key)和值(value)头,有助于提高推理期间的计算效率。具体而言,2B 变体实现了具有单个键值头的多查询注意力(MQA),这种配置在较小规模的模型中非常有效。2B 模型的训练方法还结合了来自更大模型的知识蒸馏,从而实现了相对于其参数量而言更卓越的性能。此外,该模型在各层之间交替使用局部滑动窗口注意力和全局注意力,以有效捕捉短程依赖关系和更广泛的上下文关系。注意力层和最终层应用了 Logit 软截断(soft-capping),以进一步稳定训练过程。
Gemma 2 2B 的设计强调高效运行,使其特别适合部署在计算资源有限的环境中。它的能力延伸至多种文本生成应用,涵盖了问答、文本摘要和逻辑推理等任务。该模型的紧凑占用空间使其成为集成到移动 AI 应用和边缘计算场景中的可行解决方案。为了促进负责任的人工智能开发,Gemma 2 2B 增强了先进的安全特性,包括旨在检测和缓解有害内容的 ShieldGemma 分类器,以及用于增强模型决策过程透明度的工具 Gemma Scope。
Gemma 2 是 Google 推出的开放大语言模型系列,提供 2B、9B 和 27B 三种参数规模。该系列基于 Gemma 架构构建,并引入了多项创新技术,包括交替式局部与全局注意力机制、旨在提升训练稳定性的 Logit 软截断 (logit soft-capping),以及用于优化推理效率的分组查询注意力 (Grouped Query Attention)。此外,较小规模的模型还采用了知识蒸馏技术。
排名
#144
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1199 | 80 |
APX AI
在线