Sahabat-AI-Llama3-8B-Instruct

闭源

开放权重

参数

上下文长度

8.192K

模态

Text

架构

Dense

许可证

Llama-3.1-Community

发布日期

14 Nov 2024

训练数据截止日期

Mar 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

滑动窗口大小

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

FFN 中间层大小（稠密层）

14,336

多 Token 预测头数

分词器

词汇量大小

128,256

架构图

Sahabat-AI-Llama3-8B-Instruct

Sahabat-AI-Llama3-8B-Instruct 是由 GoTo Group 和 Indosat Ooredoo Hutchison 合作开发的专业大语言模型。该模型基于 Meta Llama 3 架构，采用持续预训练 (CPT) 方法构建，并针对印度尼西亚的语言模式和文化语境进行了专门优化。通过整合大量的印尼语文本语料库以及爪哇语和巽他语等地区语言，该模型提供了能够兼顾地区习语和社会背景的本地化语言处理能力。

技术架构上，该模型采用了包含 32 层、隐藏层维度为 4096 的稠密、仅解码器 Transformer 架构。它利用具有 32 个查询头和 8 个键值头的分组查询注意力 (GQA) 机制来提高推理效率。模型在序列建模中使用了旋转位置嵌入 (RoPE)，并在其前馈层中使用了 SwiGLU 激活函数。训练过程由 NVIDIA NeMo 框架提供支持，在大约 500 亿个 token 的数据集上对权重进行了精炼，随后在数十万个“指令-完成”对上进行了有监督微调。

该指令微调版本旨在实现高质量的正式和非正式印尼语交互。它解决了通用全球模型中经常缺失的特定文化敏感性和语言变体问题。主要应用场景包括针对印尼市场的自动化客户服务、本地化内容合成以及区域数字生态系统内的技术支持。该模型与 Transformers 库兼容，并针对在标准化的加速计算基础设施上的部署进行了优化。

关于 Sahabat-AI

Sahabat-AI 是由 GoTo 和 Indosat Ooredoo Hutchison 共同发起的印度尼西亚语语言模型系列。该系列模型与 AI Singapore 和 NVIDIA 合作开发，包含一系列基于 Gemma 2 和 Llama 3 的模型，专门针对印度尼西亚语（Bahasa Indonesia）以及爪哇语（Javanese）和巽他语（Sundanese）等地区语言进行了优化。

其他 Sahabat-AI 模型

评估基准

没有可用的 Sahabat-AI-Llama3-8B-Instruct 评估基准。

排名

编程排名

模型完整性

总分

67 / 100

上游

21.0 / 30

模型

28.0 / 40

下游

17.5 / 30

GPU 要求

完整计算器

量化

选择模型权重的量化方法

上下文大小：1024 个令牌

所需显存:

资源

官方文档发布说明阅读论文下载权重源代码

Sahabat-AI-Llama3-8B-Instruct

技术规格

架构图

Sahabat-AI-Llama3-8B-Instruct

关于 Sahabat-AI

其他 Sahabat-AI 模型

评估基准

排名

模型完整性

GPU 要求

所需显存:

推荐 GPU

资源