ApX 标志ApX 标志

趋近智

SEA-LION-7B

参数

7.1B

上下文长度

2.048K

模态

Text

架构

Dense

许可证

Apache-2.0

发布日期

1 Dec 2023

训练数据截止日期

Sep 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

32

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

No

滑动窗口大小

-

归一化

Layer Normalization

激活函数

GELU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

16,384

多 Token 预测头数

-

分词器

词汇量大小

256,000

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 2k · Vocab: 256kx 32 layersLayerNormPre-AttentionMulti-Head Attention32Q / 32KV headsHead dim: 128+LayerNormPre-FFNFeed-Forward NetworkGELUIntermediate: 16.4k+Final LayerNormOutput Logits

SEA-LION-7B

SEA-LION-7B(Southeast Asian Languages In One Network)是由新加坡人工智能研发中心(AI Singapore)开发的一个拥有 71 亿参数的仅解码器(decoder-only)Transformer 模型,旨在解决东南亚地区的语言和文化特性问题。该模型基于 MosaicML 预训练 Transformer(MPT)架构,在包含 9,800 亿个 token 的海量语料库上从零开始训练。其训练集经过独特的平衡处理,重点涵盖了印尼语、马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语和老挝语等 11 种地区语言,以及英语和中文,确保模型能够捕捉到西方中心主义大语言模型(LLM)往往忽略的地区细微差别。

在技术上,SEA-LION-7B 与标准 MPT 配置不同,它采用了绝对学习位置嵌入(absolute learned positional embeddings)而非 ALiBi,为其 2,048 token 的上下文窗口提供了稳定的基础。该架构由 32 个 Transformer 层组成,隐藏层维度为 4096,包含 32 个注意力头。它采用低精度层归一化(Low-Precision LayerNorm)进行归一化,并使用 GeLU(高斯误差线性单元)激活函数。一项关键创新是 SEABPETokenizer,这是一种具有 256,000 个词汇量的自定义字节对编码(BPE)分词器,专门针对东南亚文字优化,以降低字词比(token-to-word ratio),从而提高推理效率和理解能力。

SEA-LION-7B 专为研究和地区应用部署而设计,可作为专门的自然语言理解和生成任务的基础模型。其性能特征针对东盟背景下的多语言翻译、情感分析和文化感知文本生成进行了定制。该模型以 MIT 许可证开源权重,鼓励社区驱动的微调以及针对特定地区工业用例的适配,同时为研究人员和开发人员维护一个透明且易于获取的框架。

关于 SEA-LION

SEA-LION(Southeast Asian Languages In One Network)是由 AI Singapore(新加坡国家人工智能核心)为东南亚语言开发的一个语言模型系列。该模型支持英语、印度尼西亚语、马来语、泰语、越南语、他加禄语、缅甸语、高棉语、老挝语、泰米尔语和中文。它专注于区域性语言模式,并提供基础版和指令微调版两种变体。


其他 SEA-LION 模型

评估基准

没有可用的 SEA-LION-7B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

75 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
1k
2k

所需显存:

推荐 GPU