SEA-LION-7B-Instruct

开源

开放权重

参数

7.1B

上下文长度

2.048K

模态

Text

架构

Dense

许可证

Apache-2.0

发布日期

1 Feb 2024

训练数据截止日期

Sep 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

FFN 中间层大小（稠密层）

16,384

多 Token 预测头数

分词器

词汇量大小

256,000

架构图

SEA-LION-7B-Instruct

SEA-LION-7B-Instruct 是一款专为东南亚 (SEA) 地区设计的大语言模型，针对该地区多种语言提供了优化的指令遵循能力。该模型由 AI Singapore 开发，基于 MosaicML 预训练 Transformer (MPT) 架构构建，这是一种专为高效训练和推理而设计的仅解码器架构。该模型采用了定制设计的 SEABPETokenizer，其词表大小高达 256,000，专为处理东南亚语言独特的语言结构和字符集而量身定制，与通用分词器相比，显著降低了分词开销并提升了语义表示能力。

在技术架构上，该模型是一个稠密 Transformer，并融入了诸如分组查询注意力 (GQA) 等关键优化技术，以提升推理过程中的内存效率和性能。它采用旋转位置嵌入 (RoPE)，以增强其在上下文窗口内处理长距离依赖的能力。指令微调阶段使用了经过严格筛选的英语和印尼语指令-完成对数据集，以及针对马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语和老挝语等其他东盟语言的小规模数据集。微调过程采用了参数高效微调 (PEFT) 技术，特别是低秩自适应 (LoRA)，确保模型在保留基础知识的同时，能够胜任任务导向型的响应。

该模型的性能核心在于其能在东南亚文化和语言语境下执行自然语言理解 (NLU)、生成 (NLG) 和推理 (NLR) 任务。它在区域性问答、本地化情感分析以及英语与东南亚语言互译等应用场景中表现尤为出色。通过优先选用符合商用许可且高质量的训练数据，该模型为开发者构建针对新加坡及更广泛东盟市场、且需具备文化底蕴和语言准确性的 AI 应用提供了可靠的基础。

关于 SEA-LION

SEA-LION（Southeast Asian Languages In One Network）是由 AI Singapore（新加坡国家人工智能核心）为东南亚语言开发的一个语言模型系列。该模型支持英语、印度尼西亚语、马来语、泰语、越南语、他加禄语、缅甸语、高棉语、老挝语、泰米尔语和中文。它专注于区域性语言模式，并提供基础版和指令微调版两种变体。

其他 SEA-LION 模型

SEA-LION-7B

评估基准

没有可用的 SEA-LION-7B-Instruct 评估基准。

排名

编程排名

模型完整性

总分

B+

75 / 100

上游

24.5 / 30

模型

30.5 / 40

下游

19.5 / 30

GPU 要求

完整计算器

量化

选择模型权重的量化方法

上下文大小：1024 个令牌

所需显存:

资源

官方文档阅读论文下载权重源代码

SEA-LION-7B-Instruct

技术规格

架构图

SEA-LION-7B-Instruct

关于 SEA-LION

其他 SEA-LION 模型

评估基准

排名

模型完整性

GPU 要求

所需显存:

推荐 GPU

资源