ApX 标志ApX 标志

趋近智

Gemma 2 27B

参数

27B

上下文长度

8.192K

模态

Text

架构

Dense

许可证

Gemma License

发布日期

27 Jun 2024

训练数据截止日期

-

技术规格

注意力结构

Grouped-Query Attention

隐藏维度大小

4096

层数

46

注意力头

32

键值头

16

激活函数

GELU

归一化

RMS Normalization

位置嵌入

ROPE

Gemma 2 27B

Gemma 2 是由 Google DeepMind 开发的一系列先进开放模型,源自与 Gemini 模型相同的研究成果。该模型系列旨在为一系列文本生成任务提供强大的能力,包括但不限于问答、摘要和推理。27B 变体专为高效推理而设计,便于在从高性能工作站到资源受限的消费级设备等各种硬件环境中进行部署。

Gemma 2 的架构代表了 Transformer 设计的演进,集成了多项关键创新。其中包括采用分组查询注意力(GQA)以及局部和全局注意力层的战略性交错。这种架构优化有助于提升性能并提高推理效率,特别是在处理长上下文时。此外,该模型采用了 Logit 软封顶(soft-capping)技术以增强训练稳定性,并引入了旋转位置嵌入(RoPE)以实现有效的位置编码。值得注意的是,Gemma 2 系列中较小的 2B 和 9B 模型是利用较大教师模型的知识蒸馏技术开发的。

Gemma 2 27B 模型旨在其参数量级内实现高水平的性能,同时优先考虑计算效率。这种效率实现了极具成本效益的部署,因为该模型支持在单个高性能 GPU 或 TPU 上进行全精度推理。该模型的能力适用于需要复杂自然语言理解和生成的任务,使其非常适合内容创作、对话式人工智能系统以及基础自然语言处理研究等应用场景。

关于 Gemma 2

Gemma 2 是 Google 推出的开放大语言模型系列,提供 2B、9B 和 27B 三种参数规模。该系列基于 Gemma 架构构建,并引入了多项创新技术,包括交替式局部与全局注意力机制、旨在提升训练稳定性的 Logit 软截断 (logit soft-capping),以及用于优化推理效率的分组查询注意力 (Grouped Query Attention)。此外,较小规模的模型还采用了知识蒸馏技术。


其他 Gemma 2 模型

评估基准

排名

#116

基准分数排名

0.8

19

0.59

24

通用知识

MMLU

0.75

25

Web 开发

WebDev Arena

1288

59

排名

排名

#116

编程排名

#73

模型透明度

总分

B

65 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU

Gemma 2 27B:规格和 GPU 显存要求