趋近智
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
-
层数
128
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
腾讯混元 T1 是一款专为深度分析任务、逻辑问题解决和高级科学探究而设计的高性能推理模型。作为混元生态系统中的核心“慢思考”推理引擎,它旨在通过强化结构化逻辑和长文本一致性,与当前最先进的模型竞争。该模型基于 TurboS 基座构建,标志着架构上的重大转变,即将状态空间模型集成到大规模生产环境中,以显著提升计算效率。
混元 T1 的技术基础是混合 Transformer-Mamba 混合专家 (MoE) 架构。该设计结合了用于全局上下文感知的 Transformer 块与提供线性扩展能力和卓越序列建模内存效率的 Mamba-2 状态空间层。模型共包含 16 个专家,通过动态路由为每个 Token 激活约 520 亿个参数。这种混合方案专门用于缓解传统注意力机制的平方复杂度问题,使模型在支持高达 256,000 个 Token 上下文长度的同时,保持比同类稠密 Transformer 模型快约两倍的解码速度。
在运行优化方面,混元 T1 采用了一套高度侧重于大规模强化学习的后训练方案,超过 96% 的计算资源被投入到该阶段。它利用课程学习来逐步提升推理复杂度,并采用跨层注意力 (CLA) 机制以进一步降低推理时的内存开销。这些技术创新使其非常适合处理复杂的代码生成、数学定理证明及多步逻辑推演等企业级任务,在这些领域中,高精度和低上下文损耗至关重要。
具备多种能力的腾讯混元大语言模型。
排名
#30
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1387 | 27 |
APX AI
在线