趋近智
参数
8B
上下文长度
128K
模态
Text
架构
Dense
许可证
Apache-2.0
发布日期
1 Jun 2024
训练数据截止日期
Mar 2023
注意力结构
Multi-Head Attention
隐藏维度大小
4096
层数
32
注意力头
32
键值头
8
激活函数
SwigLU
归一化
RMS Normalization
位置嵌入
Absolute Position Embedding
Typhoon-2-8B 是一款大语言模型,专门为满足泰语的语言需求而设计,同时保留了 Llama 3 架构的广泛能力。该模型由 SCB 10X 开发,经过专门的训练过程,包括使用泰语专用标记(token)扩展基础分词器(tokenizer),并在高质量泰语语料库上进行持续预训练。这种适配确保了与通用多语言模型相比,该模型能够以更高的效率和准确度处理泰语文本,特别是在泰国法律、地方行政和文化背景等领域。
其技术架构遵循稠密 Transformer 结构,利用分组查询注意力(GQA)来优化推理速度和内存消耗。它集成了旋转位置嵌入(RoPE),并配置了 128,000 个 token 的上下文窗口,从而能够处理长文档和复杂的多轮对话。该模型利用 SwiGLU 激活函数和均方根层归一化(RMSNorm)来稳定训练,并提高其 32 层结构中的表示学习能力。
该模型集成了函数调用(function calling)功能,使其能够通过生成结构化数据输出来与外部工具和 API 进行交互。这一功能使其适用于智能体工作流(agentic workflows)、自动化行政任务以及需要精确泰语理解的专业信息检索系统。该模型采用 Apache 2.0 许可证发布,促进了泰国技术生态系统中的研究和商业应用。
Typhoon 是由 SCB 10X 开发的大语言模型系列,专为泰语进行了优化。它针对泰语中缺乏分词符以及声调细微差别等复杂特性进行了专门处理。该系列模型在以泰语为核心的数据集(包括法律、文化和历史文献)上进行了训练,以确保具备本地化的上下文理解和知识储备。
没有可用的 Typhoon-2-8B 评估基准。