趋近智
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
2,304
层数
42
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemma 2 9B 是由 Google 开发的一种仅解码器(decoder-only)架构的文本到文本大语言模型,属于 Gemma 模型系列。它旨在为主要针对英语的应用提供高效且高性能的语言生成能力。该变体提供基础(预训练)版本和指令微调版本,使其能够适应各种自然语言处理任务。该模型的设计注重可访问性,支持在计算资源有限的环境中部署,例如个人电脑和本地云基础设施。
Gemma 2 9B 的架构设计结合了多项技术增强,以提高性能和推理效率。它利用旋转位置嵌入(RoPE)进行有效的位置编码。一项关键创新是采用了分组查询注意力(GQA),这提升了处理效率。此外,该模型采用了交错注意力机制,在各层之间交替使用 4096 个标记的滑动窗口注意力和 8192 个标记的全全局注意力,在管理计算需求的同时优化了上下文理解。为了保证训练稳定性,Gemma 2 9B 在层内集成了 RMSNorm 进行预归一化和后归一化,并应用了 logit 软截断(logit soft-capping)。9B 模型在预训练阶段特别受益于知识蒸馏,利用了来自更大模型的见解。9B 模型的训练语料库包含 8 万亿个标记,主要来源于网络文档、代码和数学内容。
Gemma 2 9B 适用于多种应用场景,包括但不限于诗歌创作、文案写作和代码生成等内容创作。其指令微调版本对于对话代理和聊天机器人特别有效,支持问答和摘要等任务。该模型的设计重点在于实现高效推理,使其能够在从消费级 GPU 到优化后的云端设置等一系列硬件上运行。其开放权重和许可协议旨在促进研究和开发社区的广泛采用与创新。
Gemma 2 是 Google 推出的开放大语言模型系列,提供 2B、9B 和 27B 三种参数规模。该系列基于 Gemma 架构构建,并引入了多项创新技术,包括交替式局部与全局注意力机制、旨在提升训练稳定性的 Logit 软截断 (logit soft-capping),以及用于优化推理效率的分组查询注意力 (Grouped Query Attention)。此外,较小规模的模型还采用了知识蒸馏技术。
排名
#138
| 基准 | 分数 | 排名 |
|---|---|---|
QA 助手 ProLLM QA Assistant | 0.822 | 18 |
0.582 | 27 | |
通用知识 MMLU | 0.713 | 28 |
Web 开发 WebDev Arena | 1265 | 85 |
通用文本 Text Arena | 1265 | 91 |
APX AI
在线