ApX 标志ApX 标志

趋近智

Hunyuan Standard

活跃参数

52B

上下文长度

30K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Tencent Hunyuan Community License Agreement

发布日期

10 Jun 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

80

键值头

8

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

-

激活函数

SwigLU

维度

隐藏维度大小

6,400

层数

64

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

混合专家

专家参数总数

389.0B

专家数量

17

活跃专家

2

共享专家数

-

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 6.4k · Context: 30kx 64 layersNormPre-AttentionMulti-Head Attention80Q / 8KV headsHead dim: 80+NormPre-FFNSparse MoE FFN (2/17 experts)SwiGLU+Final NormOutput Logits

Hunyuan Standard

腾讯混元-Large(Tencent Hunyuan-Large),标识符为 Hunyuan-MoE-A52B,是由腾讯开发并开源的基于 Transformer 架构的大规模混合专家(MoE)模型。该模型通过采用动态路由策略,解决了大语言模型中庞大参数量带来的计算挑战。其设计旨在各种自然语言处理任务中提供高性能,同时通过稀疏激活机制优化资源利用率。该模型的设计便于其在多样化的智能系统中应用,支持人工智能研究与部署的进步。

Hunyuan-Large 的技术架构包含总计 3890 亿个参数,由于其混合专家设计的特性,在推理过程中仅激活 520 亿个参数。模型结构包括一个共享专家和 16 个专用专家,除了持续激活的共享专家外,每个 token 还会激活一个专用专家。位置编码采用旋转位置嵌入(RoPE),激活函数为 SwiGLU。为了提高推理效率并减少 KV 缓存(KV cache)的内存占用,Hunyuan-Large 集成了分组查询注意力(GQA)和跨层注意力(CLA),显著降低了 KV 缓存的内存消耗。训练方案还受益于高质量的合成数据、专家特定的学习率缩放方法,以及用于加速训练过程的 Flash Attention 技术。

Hunyuan-Large 的预训练版本支持高达 256,000 个 token 的超长上下文窗口,能够处理和理解长文本输入,适用于详细文档分析和庞大代码库等应用。该模型在 MMLU、MMLU-Pro、CMMLU、GSM8K 和 MATH 等多个中英文基准测试中展现了极具竞争力的性能,表现往往优于同等激活参数规模的稠密模型和其他 MoE 模型。这些能力使 Hunyuan-Large 成为处理复杂推理、全面内容生成以及长文本深度理解等高难度任务的理想解决方案。

关于 Hunyuan

具备多种能力的腾讯混元大语言模型。


其他 Hunyuan 模型

评估基准

排名

#99

基准分数排名

Web 开发

WebDev Arena

1312

58

排名

排名

#99

编程排名

#71

模型完整性

总分

B

66 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
15k
29k

所需显存:

推荐 GPU

Hunyuan Standard:规格和 GPU 显存要求