Sahabat-AI-Gemma2-9B

闭源

开放权重

参数

9.2B

上下文长度

模态

Text

架构

Dense

许可证

Gemma-Community

发布日期

14 Nov 2024

训练数据截止日期

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

21.19 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

8192 个令牌

23.78 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

没有可用的 Sahabat-AI-Gemma2-9B 评估基准。

排名

编程排名

关于 Sahabat-AI-Gemma2-9B

Sahabat-AI-Gemma2-9B 是一款专门的大语言模型，旨在处理印度尼西亚群岛复杂的语言环境，包括爪哇语和巽他语等地区方言。该模型由 GoTo 与 Indosat Ooredoo Hutchison 合作开发，并获得了 AI Singapore 和 NVIDIA 的技术支持，基于 Gemma 2 9B 架构构建。它经过了严格的持续预训练 (CPT) 阶段，使用了约 500 亿个以印度尼西亚语为中心的 Token 数据。这种本地化训练使该模型能够捕捉到通用多语言模型往往会丢失的深层文化背景和语法细微差别。

技术架构遵循 Gemma 2 的密集型仅解码器 Transformer 设计，并为推理效率和训练稳定性进行了重大优化。它采用了分组查询注意力 (GQA) 机制，具有 16 个查询头和 8 个键值头，有效地降低了生成过程中的内存带宽需求。该架构的一个显著特点是全局注意力层和局部滑动窗口注意力层的交替使用，从而在长程依赖建模与计算性能之间取得了平衡。模型采用了 GeGLU 激活函数，并在其 42 层结构中实施了结合 RMSNorm 的混合归一化方案（采用 Pre-norm 和 Post-norm 配置），以保持信号完整性。

Sahabat-AI-Gemma2-9B 旨在部署于印度尼西亚的各种应用场景，专为多语言问答、情感分析和翻译等任务而设计。它利用旋转位置嵌入 (RoPE) 并具备 Logit 软截断功能，以防止训练期间的梯度爆炸并提高整体生成质量。作为根据 Gemma 社区许可发布的开放权重模型，它为开发者构建本地化 AI 服务提供了基础资源，涵盖从企业级虚拟助手到针对印度尼西亚独特数字生态优化的教育工具等多种用途。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

256

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

Gated GELU

维度

隐藏维度大小

3,584

层数

FFN 中间层大小（稠密层）

14,336

多 Token 预测头数

分词器

词汇量大小

256,000

模型完整性

总分

B+

73 / 100

上游

22.5 / 30

模型

29.5 / 40

下游

20.5 / 30

资源

官方文档阅读论文下载权重

关于 Sahabat-AI

Sahabat-AI 是由 GoTo 和 Indosat Ooredoo Hutchison 共同发起的印度尼西亚语语言模型系列。该系列模型与 AI Singapore 和 NVIDIA 合作开发，包含一系列基于 Gemma 2 和 Llama 3 的模型，专门针对印度尼西亚语（Bahasa Indonesia）以及爪哇语（Javanese）和巽他语（Sundanese）等地区语言进行了优化。