趋近智
活跃参数
52B
上下文长度
30K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Tencent Hunyuan Community License Agreement
发布日期
10 Jun 2024
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
80
键值头
8
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
-
激活函数
SwigLU
维度
隐藏维度大小
6,400
层数
64
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
混合专家
专家参数总数
389.0B
专家数量
17
活跃专家
2
共享专家数
-
FFN 中间层大小(每专家)
-
MoE 前的稠密层数
-
腾讯混元-Large(Tencent Hunyuan-Large),标识符为 Hunyuan-MoE-A52B,是由腾讯开发并开源的基于 Transformer 架构的大规模混合专家(MoE)模型。该模型通过采用动态路由策略,解决了大语言模型中庞大参数量带来的计算挑战。其设计旨在各种自然语言处理任务中提供高性能,同时通过稀疏激活机制优化资源利用率。该模型的设计便于其在多样化的智能系统中应用,支持人工智能研究与部署的进步。
Hunyuan-Large 的技术架构包含总计 3890 亿个参数,由于其混合专家设计的特性,在推理过程中仅激活 520 亿个参数。模型结构包括一个共享专家和 16 个专用专家,除了持续激活的共享专家外,每个 token 还会激活一个专用专家。位置编码采用旋转位置嵌入(RoPE),激活函数为 SwiGLU。为了提高推理效率并减少 KV 缓存(KV cache)的内存占用,Hunyuan-Large 集成了分组查询注意力(GQA)和跨层注意力(CLA),显著降低了 KV 缓存的内存消耗。训练方案还受益于高质量的合成数据、专家特定的学习率缩放方法,以及用于加速训练过程的 Flash Attention 技术。
Hunyuan-Large 的预训练版本支持高达 256,000 个 token 的超长上下文窗口,能够处理和理解长文本输入,适用于详细文档分析和庞大代码库等应用。该模型在 MMLU、MMLU-Pro、CMMLU、GSM8K 和 MATH 等多个中英文基准测试中展现了极具竞争力的性能,表现往往优于同等激活参数规模的稠密模型和其他 MoE 模型。这些能力使 Hunyuan-Large 成为处理复杂推理、全面内容生成以及长文本深度理解等高难度任务的理想解决方案。
具备多种能力的腾讯混元大语言模型。
排名
#99
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1312 | 58 |
APX AI
在线