ApX 标志ApX 标志

趋近智

Hunyuan Turbo

参数

52B

上下文长度

32K

模态

Text

架构

Dense

许可证

-

发布日期

15 May 2024

训练数据截止日期

Dec 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

-

键值头

-

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

-

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

Hunyuan Turbo

腾讯混元 Turbo (Tencent Hunyuan Turbo) 是一款采用混合专家 (MoE) 架构的大规模语言模型,专为高并发的企业级环境而设计。该模型通过平衡庞大的总参数量与较小的单 token 激活参数子集,优先保障推理效率,从而有效降低生产流水线中的延迟。作为混元系列中的性能优化方案,它在分析深度与快速响应之间取得了平衡,非常适合需要在大规模部署下保持稳定吞吐量的应用场景。

在技术基础上,该模型融合了 Mamba 状态空间模型与传统的 Transformer 模块。这种混合架构利用 Mamba 进行高效的序列处理,同时保留 Transformer 层用于复杂的语义表示,从而解决了标准注意力机制在计算扩展性上的局限。此外,该架构还引入了分组查询注意力 (GQA) 和跨层注意力 (CLA) 技术,以最小化键值 (KV) 缓存的内存占用,使模型能够在不显著增加硬件开销的前提下,处理更大的批次规模和更长的上下文窗口。

在实际应用中,该模型采用了针对不同查询类型进行优化的双重处理机制。常规的文本生成和摘要任务通过加速路径处理,以最小化首字延迟 (TTFT);而复杂的逻辑、数学或编程查询则采用更密集的推理路径。这种方法确保了模型在大规模部署场景中(如自动化客户支持、技术文档分析和集成开发环境助手)具备极高的性价比,满足了以运营效率为核心要求的业务需求。

关于 Hunyuan

具备多种能力的腾讯混元大语言模型。


其他 Hunyuan 模型

评估基准

没有可用的 Hunyuan Turbo 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B-

61 / 100