ApX 标志ApX 标志

趋近智

Hunyuan Large

活跃参数

389B

上下文长度

28K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Tencent Hunyuan Community License

发布日期

5 Nov 2024

训练数据截止日期

Sep 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

64

键值头

64

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

Layer Normalization

激活函数

GELU

维度

隐藏维度大小

4,096

层数

60

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

混合专家

专家参数总数

52.0B

专家数量

32

活跃专家

2

共享专家数

-

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 28Kx 60 layersLayerNormPre-AttentionMulti-Head Attention64Q / 64KV headsHead dim: 64+LayerNormPre-FFNSparse MoE FFN (2/32 experts)GELU+Final LayerNormOutput Logits

Hunyuan Large

混元-DiT(Hunyuan-DiT)是一款旨在实现高保真图像生成的大规模专家混合(MoE)扩散 Transformer 模型。它代表了腾讯在生成式 AI 领域的进步,将 Transformer 架构直接应用于图像生成的潜空间。其主要功能是根据文本提示词合成多样化且高质量的图像,从而赋能内容创作和视觉设计应用。该模型以其模块化架构著称,能够实现高效的扩展和推理。

混元-DiT 模型采用扩散 Transformer 架构,特别利用了专家混合(MoE)设计。该架构将模型的参数划分为多个“专家”,在推理过程中,每个输入 token 仅激活这些专家中的一个子集。这种方法使模型在拥有约 3890 亿总参数量的同时,将激活参数量保持在约 520 亿的可控范围内,从而显著提高了计算效率。该模型包含 60 个 Transformer 层和 64 个注意力头,采用了 GeLU 激活函数和层归一化(Layer Normalization)。其设计支持灵活的图像分辨率,并采用绝对位置嵌入,同时集成了旋转位置编码(RoPE)以增强性能。此外,它还结合使用了双语 CLIP 和多语言 T5 编码器,以实现对提示词强大的文本理解能力。

混元-DiT 专为生成高分辨率且视觉连贯的图像而设计,支持高达 4096x4096 的分辨率。其 MoE 架构有助于实现高效扩展,使其适用于对高质量和计算效率均有要求的部署场景。主要应用场景包括创意内容生成、视觉资产制作,以及需要先进文生图能力的领域,如广告、数字艺术和虚拟环境设计。此外,它还支持多轮多模态对话,能够根据用户交互进行迭代式的图像细化与优化。

关于 Hunyuan

具备多种能力的腾讯混元大语言模型。


其他 Hunyuan 模型

评估基准

排名

#100

基准分数排名

Web 开发

WebDev Arena

1326

70

通用文本

Text Arena

1326

78

排名

排名

#100

编程排名

#78

模型完整性

总分

B-

62 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
14k
27k

所需显存:

推荐 GPU