趋近智
参数
7.1B
上下文长度
2.048K
模态
Text
架构
Dense
许可证
Apache-2.0
发布日期
1 Dec 2023
训练数据截止日期
Sep 2023
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
32
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
No
滑动窗口大小
-
归一化
Layer Normalization
激活函数
GELU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
16,384
多 Token 预测头数
-
分词器
词汇量大小
256,000
SEA-LION-7B(Southeast Asian Languages In One Network)是由新加坡人工智能研发中心(AI Singapore)开发的一个拥有 71 亿参数的仅解码器(decoder-only)Transformer 模型,旨在解决东南亚地区的语言和文化特性问题。该模型基于 MosaicML 预训练 Transformer(MPT)架构,在包含 9,800 亿个 token 的海量语料库上从零开始训练。其训练集经过独特的平衡处理,重点涵盖了印尼语、马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语和老挝语等 11 种地区语言,以及英语和中文,确保模型能够捕捉到西方中心主义大语言模型(LLM)往往忽略的地区细微差别。
在技术上,SEA-LION-7B 与标准 MPT 配置不同,它采用了绝对学习位置嵌入(absolute learned positional embeddings)而非 ALiBi,为其 2,048 token 的上下文窗口提供了稳定的基础。该架构由 32 个 Transformer 层组成,隐藏层维度为 4096,包含 32 个注意力头。它采用低精度层归一化(Low-Precision LayerNorm)进行归一化,并使用 GeLU(高斯误差线性单元)激活函数。一项关键创新是 SEABPETokenizer,这是一种具有 256,000 个词汇量的自定义字节对编码(BPE)分词器,专门针对东南亚文字优化,以降低字词比(token-to-word ratio),从而提高推理效率和理解能力。
SEA-LION-7B 专为研究和地区应用部署而设计,可作为专门的自然语言理解和生成任务的基础模型。其性能特征针对东盟背景下的多语言翻译、情感分析和文化感知文本生成进行了定制。该模型以 MIT 许可证开源权重,鼓励社区驱动的微调以及针对特定地区工业用例的适配,同时为研究人员和开发人员维护一个透明且易于获取的框架。
SEA-LION(Southeast Asian Languages In One Network)是由 AI Singapore(新加坡国家人工智能核心)为东南亚语言开发的一个语言模型系列。该模型支持英语、印度尼西亚语、马来语、泰语、越南语、他加禄语、缅甸语、高棉语、老挝语、泰米尔语和中文。它专注于区域性语言模式,并提供基础版和指令微调版两种变体。
没有可用的 SEA-LION-7B 评估基准。
APX AI
在线