ApX 标志ApX 标志

趋近智

Typhoon-2-8B

参数

8B

上下文长度

128K

模态

Text

架构

Dense

许可证

Apache-2.0

发布日期

1 Jun 2024

训练数据截止日期

Mar 2023

技术规格

注意力结构

Multi-Head Attention

隐藏维度大小

4096

层数

32

注意力头

32

键值头

8

激活函数

SwigLU

归一化

RMS Normalization

位置嵌入

Absolute Position Embedding

Typhoon-2-8B

Typhoon-2-8B 是一款大语言模型,专门为满足泰语的语言需求而设计,同时保留了 Llama 3 架构的广泛能力。该模型由 SCB 10X 开发,经过专门的训练过程,包括使用泰语专用标记(token)扩展基础分词器(tokenizer),并在高质量泰语语料库上进行持续预训练。这种适配确保了与通用多语言模型相比,该模型能够以更高的效率和准确度处理泰语文本,特别是在泰国法律、地方行政和文化背景等领域。

其技术架构遵循稠密 Transformer 结构,利用分组查询注意力(GQA)来优化推理速度和内存消耗。它集成了旋转位置嵌入(RoPE),并配置了 128,000 个 token 的上下文窗口,从而能够处理长文档和复杂的多轮对话。该模型利用 SwiGLU 激活函数和均方根层归一化(RMSNorm)来稳定训练,并提高其 32 层结构中的表示学习能力。

该模型集成了函数调用(function calling)功能,使其能够通过生成结构化数据输出来与外部工具和 API 进行交互。这一功能使其适用于智能体工作流(agentic workflows)、自动化行政任务以及需要精确泰语理解的专业信息检索系统。该模型采用 Apache 2.0 许可证发布,促进了泰国技术生态系统中的研究和商业应用。

关于 Typhoon

Typhoon 是由 SCB 10X 开发的大语言模型系列,专为泰语进行了优化。它针对泰语中缺乏分词符以及声调细微差别等复杂特性进行了专门处理。该系列模型在以泰语为核心的数据集(包括法律、文化和历史文献)上进行了训练,以确保具备本地化的上下文理解和知识储备。


其他 Typhoon 模型

评估基准

没有可用的 Typhoon-2-8B 评估基准。

排名

排名

-

编程排名

-

模型透明度

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU