ApX 标志ApX 标志

趋近智

ERNIE-4.5-VL-424B-A47B

活跃参数

424B

上下文长度

131.072K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

30 Jun 2025

训练数据截止日期

Jun 2025

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

64

键值头

8

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

8,192

层数

54

FFN 中间层大小(稠密层)

28,672

多 Token 预测头数

-

分词器

词汇量大小

103,424

混合专家

专家参数总数

47.0B

专家数量

128

活跃专家

16

共享专家数

-

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

3

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 8.2k · Context: 131.1k · Vocab: 103.4kx 54 layersRMSNormPre-AttentionGrouped-Query Attention64Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (16/128 experts)Swish+Final RMSNormOutput Logits

ERNIE-4.5-VL-424B-A47B

ERNIE-4.5-VL-424B-A47B 是由百度开发的多模态基座模型,代表了文心 4.5 系列的旗舰变体。该模型旨在利用大规模混合专家(MoE)框架,跨文本和视觉模态处理并生成内容。通过集成 4240 亿总参数,并实现每 token 470 亿参数的稀疏激活,该模型在保持高容量表征能力的同时,优化了计算吞吐量。其设计旨在支持需要高级逻辑、全面文档分析以及复杂多模态对话交互的应用场景。

该模型采用了异构 MoE 架构,在区分文本和视觉处理的同时,保持了统一的隐层状态。它总共包含 128 个专家,包括 64 个文本专用专家和 64 个视觉专用专家,并通过路由机制为每个 token 在相应模态中选择 8 个激活专家。为了在确保有效的跨模态融合的同时,避免特定领域的性能下降,系统采用了共享自注意力层和共享专家,并辅以模态隔离路由。注意力机制基于分组查询注意力(GQA),包含 64 个查询头和 8 个键值头,并针对 131,072 个 token 的上下文窗口进行了优化。

训练和推理由飞桨(PaddlePaddle)深度学习框架提供支持,通过 4 比特和 2 比特无损量化支持工业级部署。该架构支持两种不同的运行模式:用于快速感知任务的标准推理模式,以及用于处理复杂逻辑问题的重推理模式。主要应用场景包括视觉问答、复杂的图表和文档解析,以及自动化的多模态内容生成。在视觉编码器中引入 2D 旋转位置嵌入(RoPE),并在 Transformer 骨干网络中引入绝对位置嵌入,确保了在不同输入类型下精确的空间和序列建模。

关于 ERNIE 4.5

百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。


其他 ERNIE 4.5 模型

评估基准

没有可用的 ERNIE-4.5-VL-424B-A47B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

70 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU

ERNIE-4.5-VL-424B-A47B:规格和 GPU 显存要求