趋近智
参数
8B
上下文长度
8.192K
模态
Text
架构
Dense
许可证
Llama-3.1-Community
发布日期
14 Nov 2024
训练数据截止日期
Mar 2023
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
14,336
多 Token 预测头数
-
分词器
词汇量大小
128,256
Sahabat-AI-Llama3-8B-Instruct 是由 GoTo Group 和 Indosat Ooredoo Hutchison 合作开发的专业大语言模型。该模型基于 Meta Llama 3 架构,采用持续预训练 (CPT) 方法构建,并针对印度尼西亚的语言模式和文化语境进行了专门优化。通过整合大量的印尼语文本语料库以及爪哇语和巽他语等地区语言,该模型提供了能够兼顾地区习语和社会背景的本地化语言处理能力。
技术架构上,该模型采用了包含 32 层、隐藏层维度为 4096 的稠密、仅解码器 Transformer 架构。它利用具有 32 个查询头和 8 个键值头的分组查询注意力 (GQA) 机制来提高推理效率。模型在序列建模中使用了旋转位置嵌入 (RoPE),并在其前馈层中使用了 SwiGLU 激活函数。训练过程由 NVIDIA NeMo 框架提供支持,在大约 500 亿个 token 的数据集上对权重进行了精炼,随后在数十万个“指令-完成”对上进行了有监督微调。
该指令微调版本旨在实现高质量的正式和非正式印尼语交互。它解决了通用全球模型中经常缺失的特定文化敏感性和语言变体问题。主要应用场景包括针对印尼市场的自动化客户服务、本地化内容合成以及区域数字生态系统内的技术支持。该模型与 Transformers 库兼容,并针对在标准化的加速计算基础设施上的部署进行了优化。
Sahabat-AI 是由 GoTo 和 Indosat Ooredoo Hutchison 共同发起的印度尼西亚语语言模型系列。该系列模型与 AI Singapore 和 NVIDIA 合作开发,包含一系列基于 Gemma 2 和 Llama 3 的模型,专门针对印度尼西亚语(Bahasa Indonesia)以及爪哇语(Javanese)和巽他语(Sundanese)等地区语言进行了优化。
没有可用的 Sahabat-AI-Llama3-8B-Instruct 评估基准。
APX AI
在线