ApX 标志ApX 标志

趋近智

Gemma 1 2B

参数

2B

上下文长度

8.192K

模态

Text

架构

Dense

许可证

Gemma Terms of Use

发布日期

21 Feb 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Query Attention

注意力头

16

键值头

1

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

-

维度

隐藏维度大小

2,048

层数

18

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 8.2kx 18 layersRMSNormPre-AttentionMulti-Query Attention16Q / 1KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkActivation+Final RMSNormOutput Logits

Gemma 1 2B

Gemma 1 2B 是由 Google 开发的一款轻量级、先进的开放语言模型,其技术源自与 Gemini 系列模型相同的研究和技术基础。该模型采用文本到文本、仅解码器(decoder-only)的 Transformer 架构,主要支持英文,并提供预训练和指令微调两种版本。其架构设计专注于效率,非常适合部署在计算资源有限的环境中,例如笔记本电脑、台式机或个人云基础设施。

在架构上,Gemma 1 2B 包含多个先进组件。它采用了带单个键值头(single key-value head)的多查询注意力(MQA)机制,这一设计选择通过在注意力头之间共享键和值投影来优化推理速度。位置编码采用旋转位置嵌入(RoPE)。模型的非线性激活函数使用 GeGLU(门控线性单元),这是 GLU 的一种变体,能够增强模型的表达能力。网络内部的归一化则通过 RMSNorm 完成。这些设计元素在保持模型紧凑性的同时,确保了其卓越的性能。

2B 变体非常适合多种文本生成应用,包括问答、摘要和推理任务。Gemma 1 2B 的指令微调版本经过专门优化,能够有效遵循指令并进行多轮对话,使其能够灵活应用于聊天机器人等交互式场景。其紧凑的体积确保了它可以在消费级硬件上运行,从而让开发者和研究人员能够更普惠地接触到先进的 AI 能力。

关于 Gemma 1

Gemma 1 是由 Google 推出的一系列轻量级、仅解码器架构的 Transformer 模型,提供 2B 和 7B 两种参数规模。该系列模型旨在处理各种文本生成任务,集成了旋转位置嵌入、共享输入/输出嵌入、GEGLU 激活函数以及 RMSNorm。其中,2B 模型采用多查询注意力(Multi-Query Attention)机制,而 7B 模型则采用多头注意力(Multi-Head Attention)机制。


其他 Gemma 1 模型

评估基准

没有可用的 Gemma 1 2B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

65 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU

Gemma 1 2B:规格和 GPU 显存要求