Hunyuan Large

开源

开放权重

活跃参数

389B

上下文长度

28K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Tencent Hunyuan Community License

发布日期

5 Nov 2024

训练数据截止日期

Sep 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

820.51 GB VRAM

消费级

46x RTX 4090

24GB VRAM

数据中心

12x NVIDIA A100

80GB VRAM

Apple Silicon

10x Apple M3 Max

128GB VRAM

28000 个令牌

876.20 GB VRAM

消费级

50x RTX 4090

24GB VRAM

数据中心

13x NVIDIA A100

80GB VRAM

Apple Silicon

10x Apple M3 Max

128GB VRAM

架构图

评估基准

排名

#100

基准	分数	排名
Web 开发 WebDev Arena	1326	70
通用文本 Text Arena	1326	78

排名

#100

编程排名

#78

关于 Hunyuan Large

混元-DiT（Hunyuan-DiT）是一款旨在实现高保真图像生成的大规模专家混合（MoE）扩散 Transformer 模型。它代表了腾讯在生成式 AI 领域的进步，将 Transformer 架构直接应用于图像生成的潜空间。其主要功能是根据文本提示词合成多样化且高质量的图像，从而赋能内容创作和视觉设计应用。该模型以其模块化架构著称，能够实现高效的扩展和推理。

混元-DiT 模型采用扩散 Transformer 架构，特别利用了专家混合（MoE）设计。该架构将模型的参数划分为多个“专家”，在推理过程中，每个输入 token 仅激活这些专家中的一个子集。这种方法使模型在拥有约 3890 亿总参数量的同时，将激活参数量保持在约 520 亿的可控范围内，从而显著提高了计算效率。该模型包含 60 个 Transformer 层和 64 个注意力头，采用了 GeLU 激活函数和层归一化（Layer Normalization）。其设计支持灵活的图像分辨率，并采用绝对位置嵌入，同时集成了旋转位置编码（RoPE）以增强性能。此外，它还结合使用了双语 CLIP 和多语言 T5 编码器，以实现对提示词强大的文本理解能力。

混元-DiT 专为生成高分辨率且视觉连贯的图像而设计，支持高达 4096x4096 的分辨率。其 MoE 架构有助于实现高效扩展，使其适用于对高质量和计算效率均有要求的部署场景。主要应用场景包括创意内容生成、视觉资产制作，以及需要先进文生图能力的领域，如广告、数字艺术和虚拟环境设计。此外，它还支持多轮多模态对话，能够根据用户交互进行迭代式的图像细化与优化。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

Layer Normalization

激活函数

GELU

维度

隐藏维度大小

4,096

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

混合专家

专家参数总数

52.0B

专家数量

活跃专家

共享专家数

FFN 中间层大小（每专家）

MoE 前的稠密层数

模型完整性

总分

B-

62 / 100

上游

20.0 / 30

模型

24.5 / 40

下游

17.0 / 30

资源

官方文档阅读论文下载权重源代码

关于 Hunyuan

具备多种能力的腾讯混元大语言模型。