趋近智
参数
52B
上下文长度
32K
模态
Text
架构
Dense
许可证
-
发布日期
16 Jul 2025
训练数据截止日期
Dec 2024
注意力
注意力结构
Multi-Head Attention
注意力头
64
键值头
8
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
5,120
层数
128
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
腾讯混元-TurboS(Tencent Hunyuan-TurboS)是一款高性能大语言模型,旨在优化计算效率与复杂推理之间的权衡。通过集成自适应长短思维链(CoT)机制,该模型能够动态调整其认知开销:在处理直觉性查询时采用极速的“快思考”模式,而在应对复杂任务时则切换至更严谨的分析模式。这种双路径方法使模型在保持 STEM、编程和数学解题所需的逻辑深度的同时,能够为常规交互提供近乎瞬时的响应。
在架构方面,Hunyuan-TurboS 引入了 Transformer-Mamba2 混合专家(MoE)混合框架,标志着大规模状态空间模型集成技术的进步。该结构包含 128 层,采用交错的 AMF(Attention-Mamba2-FFN)和 MF(Mamba2-FFN)块模式。这种融合架构利用 Mamba2 层实现长序列的线性扩展,并结合分组查询注意力(GQA)技术以最小化 KV 缓存(KV-Cache)的显存占用。模型的前馈网络(FFN)采用了包含 32 个专家的 MoE 设计,每个 token 会激活一个共享专家和两个专用专家,从而在优化计算开销的同时保持极高的模型容量。
Hunyuan-TurboS 专为企业级扩展性打造,支持 256,000 token 的超长上下文窗口,并经过 16 万亿高质量 token 海量语料库的预训练。其后训练阶段包括 300 万条指令的有监督微调,以及侧重于提升 STEM 准确性和通用指令遵循能力的多阶段强化学习。这些特性使 Hunyuan-TurboS 能够胜任实时对话智能体、大规模文档分析以及对延迟和成本效益有严苛要求的复杂推理任务等高吞吐量应用场景。
具备多种能力的腾讯混元大语言模型。
排名
#31
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1383 | 31 |
APX AI
在线