ApX 标志ApX 标志

趋近智

Sahabat-AI-Gemma2-9B-Instruct

参数

9.2B

上下文长度

8.192K

模态

Text

架构

Dense

许可证

Gemma-Community

发布日期

14 Nov 2024

训练数据截止日期

Mar 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

16

键值头

8

注意力头维度

256

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

归一化

RMS Normalization

激活函数

Gated GELU

维度

隐藏维度大小

3,584

层数

42

FFN 中间层大小(稠密层)

14,336

多 Token 预测头数

-

分词器

词汇量大小

256,000

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 3.6k · Context: 8.2k · Vocab: 256kx 42 layersRMSNormPre-AttentionMulti-Head Attention16Q / 8KV heads · SW: 4.1kHead dim: 256+RMSNormPre-FFNFeed-Forward NetworkGated GELUIntermediate: 14.3k+Final RMSNormOutput Logits

Sahabat-AI-Gemma2-9B-Instruct

Sahabat-AI-Gemma2-9B-Instruct 是由 GoTo Group、Indosat Ooredoo Hutchison 和新加坡人工智能局 (AI Singapore) 通过战略合作开发的专业大语言模型。该变体基于 Google Gemma 2 架构构建,是针对印度尼西亚语言生态系统进行持续预训练 (CPT) 和密集指令微调的成果。它旨在提供高保真的对话能力,不仅支持标准印度尼西亚语,还支持包括爪哇语和巽他语在内的主要地区方言,妥善处理了印度尼西亚群岛固有的文化和语言细微差别。

其底层架构采用仅解码器(decoder-only)的 Transformer 设计,并结合了多项现代优化技术以提升效率和稳定性。该模型利用分组查询注意力(GQA)来优化推理吞吐量和内存带宽,这对于在长上下文处理过程中保持性能尤为有效。为了确保训练稳定性和表征精度,模型在各层采用了 RMSNorm 进行预归一化和后归一化,并整合了 Logit 软截断(logit soft-capping)以防止训练发散。指令微调阶段涉及使用包含超过 60 万个指令-完成对的本地化数据集进行有监督微调(SFT),随后通过策略内对齐(on-policy alignment)和模型合并技术,进一步提升了响应质量以及对复杂提示词的遵循能力。

从技术层面而言,该模型针对东南亚语境下的各种自然语言处理任务进行了优化,包括情感分析、有毒内容检测、因果推理和生成式摘要。通过利用 Gemma 2 9B 的基础权重,它在继承强大世界知识库的同时,专注于在全球模型中往往代表性不足的地区习语和文化语境。这使其成为开发者为印度尼西亚市场构建本地化数字助手、自动化客服接口和教育工具的理想选择。

关于 Sahabat-AI

Sahabat-AI 是由 GoTo 和 Indosat Ooredoo Hutchison 共同发起的印度尼西亚语语言模型系列。该系列模型与 AI Singapore 和 NVIDIA 合作开发,包含一系列基于 Gemma 2 和 Llama 3 的模型,专门针对印度尼西亚语(Bahasa Indonesia)以及爪哇语(Javanese)和巽他语(Sundanese)等地区语言进行了优化。


其他 Sahabat-AI 模型

评估基准

没有可用的 Sahabat-AI-Gemma2-9B-Instruct 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

73 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU

Sahabat-AI-Gemma2-9B-Instruct:规格和 GPU 显存要求