趋近智
活跃参数
389B
上下文长度
28K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Tencent Hunyuan Community License
发布日期
5 Nov 2024
训练数据截止日期
Sep 2024
注意力
注意力结构
Multi-Head Attention
注意力头
64
键值头
64
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
Layer Normalization
激活函数
GELU
维度
隐藏维度大小
4,096
层数
60
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
混合专家
专家参数总数
52.0B
专家数量
32
活跃专家
2
共享专家数
-
FFN 中间层大小(每专家)
-
MoE 前的稠密层数
-
混元-DiT(Hunyuan-DiT)是一款旨在实现高保真图像生成的大规模专家混合(MoE)扩散 Transformer 模型。它代表了腾讯在生成式 AI 领域的进步,将 Transformer 架构直接应用于图像生成的潜空间。其主要功能是根据文本提示词合成多样化且高质量的图像,从而赋能内容创作和视觉设计应用。该模型以其模块化架构著称,能够实现高效的扩展和推理。
混元-DiT 模型采用扩散 Transformer 架构,特别利用了专家混合(MoE)设计。该架构将模型的参数划分为多个“专家”,在推理过程中,每个输入 token 仅激活这些专家中的一个子集。这种方法使模型在拥有约 3890 亿总参数量的同时,将激活参数量保持在约 520 亿的可控范围内,从而显著提高了计算效率。该模型包含 60 个 Transformer 层和 64 个注意力头,采用了 GeLU 激活函数和层归一化(Layer Normalization)。其设计支持灵活的图像分辨率,并采用绝对位置嵌入,同时集成了旋转位置编码(RoPE)以增强性能。此外,它还结合使用了双语 CLIP 和多语言 T5 编码器,以实现对提示词强大的文本理解能力。
混元-DiT 专为生成高分辨率且视觉连贯的图像而设计,支持高达 4096x4096 的分辨率。其 MoE 架构有助于实现高效扩展,使其适用于对高质量和计算效率均有要求的部署场景。主要应用场景包括创意内容生成、视觉资产制作,以及需要先进文生图能力的领域,如广告、数字艺术和虚拟环境设计。此外,它还支持多轮多模态对话,能够根据用户交互进行迭代式的图像细化与优化。
具备多种能力的腾讯混元大语言模型。
排名
#100
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1326 | 70 |
通用文本 Text Arena | 1326 | 78 |
APX AI
在线