Sahabat-AI-Gemma2-9B-Instruct

开源

开放权重

参数

9.2B

上下文长度

模态

Text

架构

Dense

许可证

Gemma-Community

发布日期

14 Nov 2024

训练数据截止日期

Mar 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

21.19 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

8192 个令牌

23.78 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

没有可用的 Sahabat-AI-Gemma2-9B-Instruct 评估基准。

排名

编程排名

关于 Sahabat-AI-Gemma2-9B-Instruct

Sahabat-AI-Gemma2-9B-Instruct 是由 GoTo Group、Indosat Ooredoo Hutchison 和新加坡人工智能局 (AI Singapore) 通过战略合作开发的专业大语言模型。该变体基于 Google Gemma 2 架构构建，是针对印度尼西亚语言生态系统进行持续预训练 (CPT) 和密集指令微调的成果。它旨在提供高保真的对话能力，不仅支持标准印度尼西亚语，还支持包括爪哇语和巽他语在内的主要地区方言，妥善处理了印度尼西亚群岛固有的文化和语言细微差别。

其底层架构采用仅解码器（decoder-only）的 Transformer 设计，并结合了多项现代优化技术以提升效率和稳定性。该模型利用分组查询注意力（GQA）来优化推理吞吐量和内存带宽，这对于在长上下文处理过程中保持性能尤为有效。为了确保训练稳定性和表征精度，模型在各层采用了 RMSNorm 进行预归一化和后归一化，并整合了 Logit 软截断（logit soft-capping）以防止训练发散。指令微调阶段涉及使用包含超过 60 万个指令-完成对的本地化数据集进行有监督微调（SFT），随后通过策略内对齐（on-policy alignment）和模型合并技术，进一步提升了响应质量以及对复杂提示词的遵循能力。

从技术层面而言，该模型针对东南亚语境下的各种自然语言处理任务进行了优化，包括情感分析、有毒内容检测、因果推理和生成式摘要。通过利用 Gemma 2 9B 的基础权重，它在继承强大世界知识库的同时，专注于在全球模型中往往代表性不足的地区习语和文化语境。这使其成为开发者为印度尼西亚市场构建本地化数字助手、自动化客服接口和教育工具的理想选择。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

256

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

Gated GELU

维度

隐藏维度大小

3,584

层数

FFN 中间层大小（稠密层）

14,336

多 Token 预测头数

分词器

词汇量大小

256,000

模型完整性

总分

B+

73 / 100

上游

23.0 / 30

模型

29.5 / 40

下游

20.5 / 30

资源

官方文档下载权重源代码

关于 Sahabat-AI

Sahabat-AI 是由 GoTo 和 Indosat Ooredoo Hutchison 共同发起的印度尼西亚语语言模型系列。该系列模型与 AI Singapore 和 NVIDIA 合作开发，包含一系列基于 Gemma 2 和 Llama 3 的模型，专门针对印度尼西亚语（Bahasa Indonesia）以及爪哇语（Javanese）和巽他语（Sundanese）等地区语言进行了优化。