ApX 标志ApX 标志

趋近智

SEA-LION-7B-Instruct

参数

7.1B

上下文长度

2.048K

模态

Text

架构

Dense

许可证

Apache-2.0

发布日期

1 Feb 2024

训练数据截止日期

Sep 2023

技术规格

注意力结构

Multi-Head Attention

隐藏维度大小

4096

层数

32

注意力头

32

键值头

32

激活函数

SwigLU

归一化

RMS Normalization

位置嵌入

Absolute Position Embedding

SEA-LION-7B-Instruct

SEA-LION-7B-Instruct 是一款专为东南亚 (SEA) 地区设计的大语言模型,针对该地区多种语言提供了优化的指令遵循能力。该模型由 AI Singapore 开发,基于 MosaicML 预训练 Transformer (MPT) 架构构建,这是一种专为高效训练和推理而设计的仅解码器架构。该模型采用了定制设计的 SEABPETokenizer,其词表大小高达 256,000,专为处理东南亚语言独特的语言结构和字符集而量身定制,与通用分词器相比,显著降低了分词开销并提升了语义表示能力。

在技术架构上,该模型是一个稠密 Transformer,并融入了诸如分组查询注意力 (GQA) 等关键优化技术,以提升推理过程中的内存效率和性能。它采用旋转位置嵌入 (RoPE),以增强其在上下文窗口内处理长距离依赖的能力。指令微调阶段使用了经过严格筛选的英语和印尼语指令-完成对数据集,以及针对马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语和老挝语等其他东盟语言的小规模数据集。微调过程采用了参数高效微调 (PEFT) 技术,特别是低秩自适应 (LoRA),确保模型在保留基础知识的同时,能够胜任任务导向型的响应。

该模型的性能核心在于其能在东南亚文化和语言语境下执行自然语言理解 (NLU)、生成 (NLG) 和推理 (NLR) 任务。它在区域性问答、本地化情感分析以及英语与东南亚语言互译等应用场景中表现尤为出色。通过优先选用符合商用许可且高质量的训练数据,该模型为开发者构建针对新加坡及更广泛东盟市场、且需具备文化底蕴和语言准确性的 AI 应用提供了可靠的基础。

关于 SEA-LION

SEA-LION(Southeast Asian Languages In One Network)是由 AI Singapore(新加坡国家人工智能核心)为东南亚语言开发的一个语言模型系列。该模型支持英语、印度尼西亚语、马来语、泰语、越南语、他加禄语、缅甸语、高棉语、老挝语、泰米尔语和中文。它专注于区域性语言模式,并提供基础版和指令微调版两种变体。


其他 SEA-LION 模型

评估基准

没有可用的 SEA-LION-7B-Instruct 评估基准。

排名

排名

-

编程排名

-

模型透明度

总分

B+

75 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
1k
2k

所需显存:

推荐 GPU

SEA-LION-7B-Instruct:规格和 GPU 显存要求