ApX 标志ApX 标志

趋近智

Sahabat-AI-Llama3-8B-Instruct

参数

8B

上下文长度

8.192K

模态

Text

架构

Dense

许可证

Llama-3.1-Community

发布日期

14 Nov 2024

训练数据截止日期

Mar 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

14,336

多 Token 预测头数

-

分词器

词汇量大小

128,256

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 8.2k · Vocab: 128.3kx 32 layersRMSNormPre-AttentionMulti-Head Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 14.3k+Final RMSNormOutput Logits

Sahabat-AI-Llama3-8B-Instruct

Sahabat-AI-Llama3-8B-Instruct 是由 GoTo Group 和 Indosat Ooredoo Hutchison 合作开发的专业大语言模型。该模型基于 Meta Llama 3 架构,采用持续预训练 (CPT) 方法构建,并针对印度尼西亚的语言模式和文化语境进行了专门优化。通过整合大量的印尼语文本语料库以及爪哇语和巽他语等地区语言,该模型提供了能够兼顾地区习语和社会背景的本地化语言处理能力。

技术架构上,该模型采用了包含 32 层、隐藏层维度为 4096 的稠密、仅解码器 Transformer 架构。它利用具有 32 个查询头和 8 个键值头的分组查询注意力 (GQA) 机制来提高推理效率。模型在序列建模中使用了旋转位置嵌入 (RoPE),并在其前馈层中使用了 SwiGLU 激活函数。训练过程由 NVIDIA NeMo 框架提供支持,在大约 500 亿个 token 的数据集上对权重进行了精炼,随后在数十万个“指令-完成”对上进行了有监督微调。

该指令微调版本旨在实现高质量的正式和非正式印尼语交互。它解决了通用全球模型中经常缺失的特定文化敏感性和语言变体问题。主要应用场景包括针对印尼市场的自动化客户服务、本地化内容合成以及区域数字生态系统内的技术支持。该模型与 Transformers 库兼容,并针对在标准化的加速计算基础设施上的部署进行了优化。

关于 Sahabat-AI

Sahabat-AI 是由 GoTo 和 Indosat Ooredoo Hutchison 共同发起的印度尼西亚语语言模型系列。该系列模型与 AI Singapore 和 NVIDIA 合作开发,包含一系列基于 Gemma 2 和 Llama 3 的模型,专门针对印度尼西亚语(Bahasa Indonesia)以及爪哇语(Javanese)和巽他语(Sundanese)等地区语言进行了优化。


其他 Sahabat-AI 模型

评估基准

没有可用的 Sahabat-AI-Llama3-8B-Instruct 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU

Sahabat-AI-Llama3-8B-Instruct:规格和 GPU 显存要求