ApX 标志ApX 标志

趋近智

Hunyuan T1

参数

70B

上下文长度

32K

模态

Text

架构

Dense

许可证

-

发布日期

22 Aug 2025

训练数据截止日期

Dec 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

-

键值头

-

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

-

层数

128

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

Hunyuan T1

腾讯混元 T1 是一款专为深度分析任务、逻辑问题解决和高级科学探究而设计的高性能推理模型。作为混元生态系统中的核心“慢思考”推理引擎,它旨在通过强化结构化逻辑和长文本一致性,与当前最先进的模型竞争。该模型基于 TurboS 基座构建,标志着架构上的重大转变,即将状态空间模型集成到大规模生产环境中,以显著提升计算效率。

混元 T1 的技术基础是混合 Transformer-Mamba 混合专家 (MoE) 架构。该设计结合了用于全局上下文感知的 Transformer 块与提供线性扩展能力和卓越序列建模内存效率的 Mamba-2 状态空间层。模型共包含 16 个专家,通过动态路由为每个 Token 激活约 520 亿个参数。这种混合方案专门用于缓解传统注意力机制的平方复杂度问题,使模型在支持高达 256,000 个 Token 上下文长度的同时,保持比同类稠密 Transformer 模型快约两倍的解码速度。

在运行优化方面,混元 T1 采用了一套高度侧重于大规模强化学习的后训练方案,超过 96% 的计算资源被投入到该阶段。它利用课程学习来逐步提升推理复杂度,并采用跨层注意力 (CLA) 机制以进一步降低推理时的内存开销。这些技术创新使其非常适合处理复杂的代码生成、数学定理证明及多步逻辑推演等企业级任务,在这些领域中,高精度和低上下文损耗至关重要。

关于 Hunyuan

具备多种能力的腾讯混元大语言模型。


其他 Hunyuan 模型

评估基准

排名

#30

基准分数排名

Web 开发

WebDev Arena

1387

27

排名

排名

#30

编程排名

#41

模型完整性

总分

B-

62 / 100

Hunyuan T1:模型规格和详细信息