趋近智
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
腾讯混元 Turbo (Tencent Hunyuan Turbo) 是一款采用混合专家 (MoE) 架构的大规模语言模型,专为高并发的企业级环境而设计。该模型通过平衡庞大的总参数量与较小的单 token 激活参数子集,优先保障推理效率,从而有效降低生产流水线中的延迟。作为混元系列中的性能优化方案,它在分析深度与快速响应之间取得了平衡,非常适合需要在大规模部署下保持稳定吞吐量的应用场景。
在技术基础上,该模型融合了 Mamba 状态空间模型与传统的 Transformer 模块。这种混合架构利用 Mamba 进行高效的序列处理,同时保留 Transformer 层用于复杂的语义表示,从而解决了标准注意力机制在计算扩展性上的局限。此外,该架构还引入了分组查询注意力 (GQA) 和跨层注意力 (CLA) 技术,以最小化键值 (KV) 缓存的内存占用,使模型能够在不显著增加硬件开销的前提下,处理更大的批次规模和更长的上下文窗口。
在实际应用中,该模型采用了针对不同查询类型进行优化的双重处理机制。常规的文本生成和摘要任务通过加速路径处理,以最小化首字延迟 (TTFT);而复杂的逻辑、数学或编程查询则采用更密集的推理路径。这种方法确保了模型在大规模部署场景中(如自动化客户支持、技术文档分析和集成开发环境助手)具备极高的性价比,满足了以运营效率为核心要求的业务需求。
具备多种能力的腾讯混元大语言模型。
没有可用的 Hunyuan Turbo 评估基准。
APX AI
在线