ApX 标志ApX 标志

趋近智

Typhoon-2-70B

参数

70B

上下文长度

128K

模态

Text

架构

Dense

许可证

Apache-2.0

发布日期

1 Jun 2024

训练数据截止日期

Dec 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

64

键值头

8

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

8,192

层数

80

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 8.2k · Context: 128kx 80 layersRMSNormPre-AttentionMulti-Head Attention64Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLU+Final RMSNormOutput Logits

Typhoon-2-70B

Typhoon-2-70B 是由 SCB 10X 开发的高容量泰英双语大语言模型,其架构专门针对泰语的语言复杂性而设计。该模型以 Llama 3.1 70B 为基础,在超过 50 亿个高质量泰语 token 的精选语料库上进行了广泛的持续预训练。这一训练过程旨在使模型契合泰国的文化细微差别和语言结构,同时保留底层架构原有的英语推理能力。由此产生的模型可作为在双语环境下对精度有极高要求的企业级应用的基础。

在技术架构上,该模型采用稠密、仅解码器(decoder-only)的 Transformer 结构,并结合分组查询注意力(GQA)机制以优化推理效率和内存吞吐量。它拥有 128K token 的上下文窗口,能够处理长篇法律文件、技术手册和多轮对话历史。模型集成了先进的后训练技术,包括有监督微调(SFT)和直接偏好优化(DPO),以增强其指令遵循的准确性和函数调用(function-calling)能力。这些优化使模型能够与外部工具和 API 进行交互,从而支持复杂的智能体(agentic)工作流。

Typhoon-2-70B 根据 Llama 3.1 社区许可协议发布,为开发人员将主权 AI(sovereign AI)能力集成到生产环境提供了透明的路径。其设计重点提升了在法律推理、文化内容生成和复杂数据分析等泰语专业领域的性能。通过填补以英语为中心的基础模型与本地语言需求之间的空白,Typhoon-2-70B 助力开发出既符合本地需求,又在推理和准确性方面保持全球顶尖水平的本地化 AI 解决方案。

关于 Typhoon

Typhoon 是由 SCB 10X 开发的大语言模型系列,专为泰语进行了优化。它针对泰语中缺乏分词符以及声调细微差别等复杂特性进行了专门处理。该系列模型在以泰语为核心的数据集(包括法律、文化和历史文献)上进行了训练,以确保具备本地化的上下文理解和知识储备。


其他 Typhoon 模型

评估基准

没有可用的 Typhoon-2-70B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

65 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU