ApX 标志ApX 标志

趋近智

Sahabat-AI-Gemma2-9B

参数

9.2B

上下文长度

8K

模态

Text

架构

Dense

许可证

Gemma-Community

发布日期

14 Nov 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

16

键值头

8

注意力头维度

256

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

归一化

RMS Normalization

激活函数

Gated GELU

维度

隐藏维度大小

3,584

层数

42

FFN 中间层大小(稠密层)

14,336

多 Token 预测头数

-

分词器

词汇量大小

256,000

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 3.6k · Context: 8K · Vocab: 256kx 42 layersRMSNormPre-AttentionMulti-Head Attention16Q / 8KV heads · SW: 4.1kHead dim: 256+RMSNormPre-FFNFeed-Forward NetworkGated GELUIntermediate: 14.3k+Final RMSNormOutput Logits

Sahabat-AI-Gemma2-9B

Sahabat-AI-Gemma2-9B 是一款专门的大语言模型,旨在处理印度尼西亚群岛复杂的语言环境,包括爪哇语和巽他语等地区方言。该模型由 GoTo 与 Indosat Ooredoo Hutchison 合作开发,并获得了 AI Singapore 和 NVIDIA 的技术支持,基于 Gemma 2 9B 架构构建。它经过了严格的持续预训练 (CPT) 阶段,使用了约 500 亿个以印度尼西亚语为中心的 Token 数据。这种本地化训练使该模型能够捕捉到通用多语言模型往往会丢失的深层文化背景和语法细微差别。

技术架构遵循 Gemma 2 的密集型仅解码器 Transformer 设计,并为推理效率和训练稳定性进行了重大优化。它采用了分组查询注意力 (GQA) 机制,具有 16 个查询头和 8 个键值头,有效地降低了生成过程中的内存带宽需求。该架构的一个显著特点是全局注意力层和局部滑动窗口注意力层的交替使用,从而在长程依赖建模与计算性能之间取得了平衡。模型采用了 GeGLU 激活函数,并在其 42 层结构中实施了结合 RMSNorm 的混合归一化方案(采用 Pre-norm 和 Post-norm 配置),以保持信号完整性。

Sahabat-AI-Gemma2-9B 旨在部署于印度尼西亚的各种应用场景,专为多语言问答、情感分析和翻译等任务而设计。它利用旋转位置嵌入 (RoPE) 并具备 Logit 软截断功能,以防止训练期间的梯度爆炸并提高整体生成质量。作为根据 Gemma 社区许可发布的开放权重模型,它为开发者构建本地化 AI 服务提供了基础资源,涵盖从企业级虚拟助手到针对印度尼西亚独特数字生态优化的教育工具等多种用途。

关于 Sahabat-AI

Sahabat-AI 是由 GoTo 和 Indosat Ooredoo Hutchison 共同发起的印度尼西亚语语言模型系列。该系列模型与 AI Singapore 和 NVIDIA 合作开发,包含一系列基于 Gemma 2 和 Llama 3 的模型,专门针对印度尼西亚语(Bahasa Indonesia)以及爪哇语(Javanese)和巽他语(Sundanese)等地区语言进行了优化。


其他 Sahabat-AI 模型

评估基准

没有可用的 Sahabat-AI-Gemma2-9B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

73 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU

Sahabat-AI-Gemma2-9B:规格和 GPU 显存要求