ApX 标志ApX 标志

趋近智

ERNIE-4.5-VL-424B-A47B-Base

活跃参数

424B

上下文长度

131.072K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

30 Jun 2025

训练数据截止日期

Jun 2025

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

64

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

4,096

层数

54

FFN 中间层大小(稠密层)

28,672

多 Token 预测头数

-

分词器

词汇量大小

103,424

混合专家

专家参数总数

47.0B

专家数量

128

活跃专家

16

共享专家数

-

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

3

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 131.1k · Vocab: 103.4kx 54 layersRMSNormPre-AttentionGrouped-Query Attention64Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (16/128 experts)Swish+Final RMSNormOutput Logits

ERNIE-4.5-VL-424B-A47B-Base

ERNIE-4.5-VL-424B-A47B-Base 是百度文心 (ERNIE) 4.5 系列中的旗舰级多模态基座大模型,其特点是拥有超大规模和先进的架构设计。该变体作为基座模型,经过预训练,可实现全面的跨模态推理以及对文本、图像和视频的高保真理解。它采用了异构混合专家 (MoE) 框架,使系统规模达到 4240 亿参数,同时通过每个 Token 仅激活 470 亿参数来保持计算效率。该模型专为处理复杂的多模态工作流而设计,包括内容分析、复杂的视觉语言推理以及跨多种数据类型的长上下文信息处理。

该模型的技术核心围绕一种新型的多模态异构 MoE 结构,该结构集成了模态隔离路由和共享参数层。这种架构利用模态特定专家来保留文本和视觉数据的独特特征,同时利用共享注意力机制促进模态间的相互增强。为了确保大规模预训练期间学习的稳定与平衡,模型引入了路由正交损失和多模态 Token 平衡损失,防止任何单一模态主导梯度更新。视觉栈通过可变分辨率视觉 Transformer (ViT) 编码器和将视觉特征投射到统一嵌入空间的适配器得到进一步增强,并支持用于精确空间定位的二维旋转位置嵌入 (2D RoPE)。

ERNIE-4.5-VL-424B-A47B-Base 基于飞桨 (PaddlePaddle) 框架构建,针对高性能部署进行了优化,支持多专家并行协作和卷积码量化等先进推理技术。这使得模型能够实现近乎无损的 4 位和 2 位量化,从而允许在更普及的硬件配置上部署这一大规模系统。凭借 131,072 个 Token 的超长上下文窗口,以及对“思考”和“非思考”推理模式的支持,该模型适用于需要对长文档或复杂视频序列进行深度语义推理的工业级应用。

关于 ERNIE 4.5

百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。


其他 ERNIE 4.5 模型

评估基准

没有可用的 ERNIE-4.5-VL-424B-A47B-Base 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

72 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU

ERNIE-4.5-VL-424B-A47B-Base:规格和 GPU 显存要求