ApX 标志ApX 标志

趋近智

Gemma 2 2B

参数

2B

上下文长度

8.192K

模态

Text

架构

Dense

许可证

Gemma License

发布日期

27 Jun 2024

训练数据截止日期

Jun 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

16

键值头

4

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

GELU

维度

隐藏维度大小

2,048

层数

26

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 8.2kx 26 layersRMSNormPre-AttentionGrouped-Query Attention16Q / 4KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkGELU+Final RMSNormOutput Logits

Gemma 2 2B

Gemma 2 2B 是由 Google 开发的一款紧凑且先进的开源语言模型,它采用了与 Gemini 系列模型相同的底层研究和技术。该模型被设计为文本到文本(text-to-text)、仅解码器(decoder-only)的 Transformer 架构,提供英文版本,并包含权重开放的预训练和指令微调变体。其设计优先考虑效率,使其能够在从资源受限的边缘设备、消费级笔记本电脑到更强大的云端基础设施等各种计算环境中进行部署。这种可访问性促进了更多人参与到先进人工智能系统的开发与应用中。

Gemma 2 2B 的架构框架根植于仅解码器的 Transformer 设计,并融合了多项成熟及创新的组件。与其前身 Gemma 模型一致,其关键架构元素包括 8192 个 Token 的标准上下文长度,以及用于处理位置信息的旋转位置嵌入(RoPE)。该模型在激活函数方面采用了近似 GeGLU 的非线性设计。Gemma 2 的显著增强功能包括一种混合归一化方法,结合了后归一化(post-normalization)和带有 RMSNorm 的预归一化(pre-normalization),以增强训练稳定性和整体性能。此外,Gemma 2 2B 利用了分组查询注意力(GQA),这是一种优化的注意力机制,其中多个查询头共享单个键(key)和值(value)头,有助于提高推理期间的计算效率。具体而言,2B 变体实现了具有单个键值头的多查询注意力(MQA),这种配置在较小规模的模型中非常有效。2B 模型的训练方法还结合了来自更大模型的知识蒸馏,从而实现了相对于其参数量而言更卓越的性能。此外,该模型在各层之间交替使用局部滑动窗口注意力和全局注意力,以有效捕捉短程依赖关系和更广泛的上下文关系。注意力层和最终层应用了 Logit 软截断(soft-capping),以进一步稳定训练过程。

Gemma 2 2B 的设计强调高效运行,使其特别适合部署在计算资源有限的环境中。它的能力延伸至多种文本生成应用,涵盖了问答、文本摘要和逻辑推理等任务。该模型的紧凑占用空间使其成为集成到移动 AI 应用和边缘计算场景中的可行解决方案。为了促进负责任的人工智能开发,Gemma 2 2B 增强了先进的安全特性,包括旨在检测和缓解有害内容的 ShieldGemma 分类器,以及用于增强模型决策过程透明度的工具 Gemma Scope。

关于 Gemma 2

Gemma 2 是 Google 推出的开放大语言模型系列,提供 2B、9B 和 27B 三种参数规模。该系列基于 Gemma 架构构建,并引入了多项创新技术,包括交替式局部与全局注意力机制、旨在提升训练稳定性的 Logit 软截断 (logit soft-capping),以及用于优化推理效率的分组查询注意力 (Grouped Query Attention)。此外,较小规模的模型还采用了知识蒸馏技术。


其他 Gemma 2 模型

评估基准

排名

#144

基准分数排名

Web 开发

WebDev Arena

1199

80

排名

排名

#144

编程排名

#99

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU