趋近智
参数
70B
上下文长度
128K
模态
Text
架构
Dense
许可证
Apache-2.0
发布日期
1 Jun 2024
训练数据截止日期
Dec 2023
注意力
注意力结构
Multi-Head Attention
注意力头
64
键值头
8
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
8,192
层数
80
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Typhoon-2-70B 是由 SCB 10X 开发的高容量泰英双语大语言模型,其架构专门针对泰语的语言复杂性而设计。该模型以 Llama 3.1 70B 为基础,在超过 50 亿个高质量泰语 token 的精选语料库上进行了广泛的持续预训练。这一训练过程旨在使模型契合泰国的文化细微差别和语言结构,同时保留底层架构原有的英语推理能力。由此产生的模型可作为在双语环境下对精度有极高要求的企业级应用的基础。
在技术架构上,该模型采用稠密、仅解码器(decoder-only)的 Transformer 结构,并结合分组查询注意力(GQA)机制以优化推理效率和内存吞吐量。它拥有 128K token 的上下文窗口,能够处理长篇法律文件、技术手册和多轮对话历史。模型集成了先进的后训练技术,包括有监督微调(SFT)和直接偏好优化(DPO),以增强其指令遵循的准确性和函数调用(function-calling)能力。这些优化使模型能够与外部工具和 API 进行交互,从而支持复杂的智能体(agentic)工作流。
Typhoon-2-70B 根据 Llama 3.1 社区许可协议发布,为开发人员将主权 AI(sovereign AI)能力集成到生产环境提供了透明的路径。其设计重点提升了在法律推理、文化内容生成和复杂数据分析等泰语专业领域的性能。通过填补以英语为中心的基础模型与本地语言需求之间的空白,Typhoon-2-70B 助力开发出既符合本地需求,又在推理和准确性方面保持全球顶尖水平的本地化 AI 解决方案。
Typhoon 是由 SCB 10X 开发的大语言模型系列,专为泰语进行了优化。它针对泰语中缺乏分词符以及声调细微差别等复杂特性进行了专门处理。该系列模型在以泰语为核心的数据集(包括法律、文化和历史文献)上进行了训练,以确保具备本地化的上下文理解和知识储备。
没有可用的 Typhoon-2-70B 评估基准。
APX AI
在线