趋近智
参数
9.2B
上下文长度
8K
模态
Text
架构
Dense
许可证
Gemma-Community
发布日期
14 Nov 2024
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
16
键值头
8
注意力头维度
256
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000
滑动窗口注意力
Yes
滑动窗口大小
4,096
归一化
RMS Normalization
激活函数
Gated GELU
维度
隐藏维度大小
3,584
层数
42
FFN 中间层大小(稠密层)
14,336
多 Token 预测头数
-
分词器
词汇量大小
256,000
Sahabat-AI-Gemma2-9B 是一款专门的大语言模型,旨在处理印度尼西亚群岛复杂的语言环境,包括爪哇语和巽他语等地区方言。该模型由 GoTo 与 Indosat Ooredoo Hutchison 合作开发,并获得了 AI Singapore 和 NVIDIA 的技术支持,基于 Gemma 2 9B 架构构建。它经过了严格的持续预训练 (CPT) 阶段,使用了约 500 亿个以印度尼西亚语为中心的 Token 数据。这种本地化训练使该模型能够捕捉到通用多语言模型往往会丢失的深层文化背景和语法细微差别。
技术架构遵循 Gemma 2 的密集型仅解码器 Transformer 设计,并为推理效率和训练稳定性进行了重大优化。它采用了分组查询注意力 (GQA) 机制,具有 16 个查询头和 8 个键值头,有效地降低了生成过程中的内存带宽需求。该架构的一个显著特点是全局注意力层和局部滑动窗口注意力层的交替使用,从而在长程依赖建模与计算性能之间取得了平衡。模型采用了 GeGLU 激活函数,并在其 42 层结构中实施了结合 RMSNorm 的混合归一化方案(采用 Pre-norm 和 Post-norm 配置),以保持信号完整性。
Sahabat-AI-Gemma2-9B 旨在部署于印度尼西亚的各种应用场景,专为多语言问答、情感分析和翻译等任务而设计。它利用旋转位置嵌入 (RoPE) 并具备 Logit 软截断功能,以防止训练期间的梯度爆炸并提高整体生成质量。作为根据 Gemma 社区许可发布的开放权重模型,它为开发者构建本地化 AI 服务提供了基础资源,涵盖从企业级虚拟助手到针对印度尼西亚独特数字生态优化的教育工具等多种用途。
Sahabat-AI 是由 GoTo 和 Indosat Ooredoo Hutchison 共同发起的印度尼西亚语语言模型系列。该系列模型与 AI Singapore 和 NVIDIA 合作开发,包含一系列基于 Gemma 2 和 Llama 3 的模型,专门针对印度尼西亚语(Bahasa Indonesia)以及爪哇语(Javanese)和巽他语(Sundanese)等地区语言进行了优化。
没有可用的 Sahabat-AI-Gemma2-9B 评估基准。
APX AI
在线