趋近智
参数
2B
上下文长度
8.192K
模态
Text
架构
Dense
许可证
Gemma Terms of Use
发布日期
21 Feb 2024
训练数据截止日期
-
注意力
注意力结构
Multi-Query Attention
注意力头
16
键值头
1
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
-
维度
隐藏维度大小
2,048
层数
18
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemma 1 2B 是由 Google 开发的一款轻量级、先进的开放语言模型,其技术源自与 Gemini 系列模型相同的研究和技术基础。该模型采用文本到文本、仅解码器(decoder-only)的 Transformer 架构,主要支持英文,并提供预训练和指令微调两种版本。其架构设计专注于效率,非常适合部署在计算资源有限的环境中,例如笔记本电脑、台式机或个人云基础设施。
在架构上,Gemma 1 2B 包含多个先进组件。它采用了带单个键值头(single key-value head)的多查询注意力(MQA)机制,这一设计选择通过在注意力头之间共享键和值投影来优化推理速度。位置编码采用旋转位置嵌入(RoPE)。模型的非线性激活函数使用 GeGLU(门控线性单元),这是 GLU 的一种变体,能够增强模型的表达能力。网络内部的归一化则通过 RMSNorm 完成。这些设计元素在保持模型紧凑性的同时,确保了其卓越的性能。
2B 变体非常适合多种文本生成应用,包括问答、摘要和推理任务。Gemma 1 2B 的指令微调版本经过专门优化,能够有效遵循指令并进行多轮对话,使其能够灵活应用于聊天机器人等交互式场景。其紧凑的体积确保了它可以在消费级硬件上运行,从而让开发者和研究人员能够更普惠地接触到先进的 AI 能力。
Gemma 1 是由 Google 推出的一系列轻量级、仅解码器架构的 Transformer 模型,提供 2B 和 7B 两种参数规模。该系列模型旨在处理各种文本生成任务,集成了旋转位置嵌入、共享输入/输出嵌入、GEGLU 激活函数以及 RMSNorm。其中,2B 模型采用多查询注意力(Multi-Query Attention)机制,而 7B 模型则采用多头注意力(Multi-Head Attention)机制。
没有可用的 Gemma 1 2B 评估基准。
APX AI
在线