ApX 标志ApX 标志

趋近智

Gemma 2 9B

参数

9B

上下文长度

8K

模态

Text

架构

Dense

许可证

Gemma License

发布日期

27 Jun 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,304

层数

42

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2.3k · Context: 8Kx 42 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV headsHead dim: 72+RMSNormPre-FFNFeed-Forward NetworkSwiGLU+Final RMSNormOutput Logits

Gemma 2 9B

Gemma 2 9B 是由 Google 开发的一种仅解码器(decoder-only)架构的文本到文本大语言模型,属于 Gemma 模型系列。它旨在为主要针对英语的应用提供高效且高性能的语言生成能力。该变体提供基础(预训练)版本和指令微调版本,使其能够适应各种自然语言处理任务。该模型的设计注重可访问性,支持在计算资源有限的环境中部署,例如个人电脑和本地云基础设施。

Gemma 2 9B 的架构设计结合了多项技术增强,以提高性能和推理效率。它利用旋转位置嵌入(RoPE)进行有效的位置编码。一项关键创新是采用了分组查询注意力(GQA),这提升了处理效率。此外,该模型采用了交错注意力机制,在各层之间交替使用 4096 个标记的滑动窗口注意力和 8192 个标记的全全局注意力,在管理计算需求的同时优化了上下文理解。为了保证训练稳定性,Gemma 2 9B 在层内集成了 RMSNorm 进行预归一化和后归一化,并应用了 logit 软截断(logit soft-capping)。9B 模型在预训练阶段特别受益于知识蒸馏,利用了来自更大模型的见解。9B 模型的训练语料库包含 8 万亿个标记,主要来源于网络文档、代码和数学内容。

Gemma 2 9B 适用于多种应用场景,包括但不限于诗歌创作、文案写作和代码生成等内容创作。其指令微调版本对于对话代理和聊天机器人特别有效,支持问答和摘要等任务。该模型的设计重点在于实现高效推理,使其能够在从消费级 GPU 到优化后的云端设置等一系列硬件上运行。其开放权重和许可协议旨在促进研究和开发社区的广泛采用与创新。

关于 Gemma 2

Gemma 2 是 Google 推出的开放大语言模型系列,提供 2B、9B 和 27B 三种参数规模。该系列基于 Gemma 架构构建,并引入了多项创新技术,包括交替式局部与全局注意力机制、旨在提升训练稳定性的 Logit 软截断 (logit soft-capping),以及用于优化推理效率的分组查询注意力 (Grouped Query Attention)。此外,较小规模的模型还采用了知识蒸馏技术。


其他 Gemma 2 模型

评估基准

排名

#138

基准分数排名

0.822

18

0.582

27

通用知识

MMLU

0.713

28

Web 开发

WebDev Arena

1265

85

通用文本

Text Arena

1265

91

排名

排名

#138

编程排名

#99

模型完整性

总分

B-

63 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU

Gemma 2 9B:规格和 GPU 显存要求