ApX 标志ApX 标志

趋近智

ERNIE-4.5-VL-28B-A3B

活跃参数

28B

上下文长度

131K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

30 Jun 2025

训练数据截止日期

Dec 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

20

键值头

4

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

3,584

层数

28

FFN 中间层大小(稠密层)

12,288

多 Token 预测头数

-

分词器

词汇量大小

103,424

混合专家

专家参数总数

3.0B

专家数量

130

活跃专家

14

共享专家数

2

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 3.6k · Context: 131K · Vocab: 103.4kx 28 layersRMSNormPre-AttentionGrouped-Query Attention20Q / 4KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (14/130 experts)SwiGLU+Final RMSNormOutput Logits

ERNIE-4.5-VL-28B-A3B

ERNIE-4.5-VL-28B-A3B 是由百度开发的一款多模态专家混合(MoE)基础模型,旨在高效的计算范畴内提供先进的视觉语言理解能力。该模型变体通过在任何给定的前向传播过程中仅激活其总参数的一个子集,旨在弥合高容量推理与可部署推理之间的差距。它支持复杂的多模态任务,包括文档和图表解读、细粒度视觉感知以及视频序列的时序分析。其显著特征是集成了“思考”模式,该模式利用多步推理过程来处理需要视觉和文本数据之间更深层语义对齐的复杂查询。

在技术层面,该模型基于异构 MoE 架构构建,有助于在互不干扰的情况下对不同模态进行联合预训练。这是通过模态隔离路由以及路由正交损失和多模态 Token 平衡损失的应用实现的,确保视觉和语言专家在强化相互理解的同时开发专门的表示。视觉组件使用可变分辨率视觉 Transformer (ViT) 编码器,将视觉特征投影到共享嵌入空间中。该架构结合了分组查询注意力 (GQA) 和旋转位置嵌入 (RoPE) 以管理其高达 131,072 个 token 的超长上下文,而直接偏好优化 (DPO) 和基于可验证奖励的强化学习 (RLVR) 等后训练优化进一步完善了其对齐和推理精度。

从性能和部署的角度来看,ERNIE-4.5-VL-28B-A3B 基于飞桨 (PaddlePaddle) 框架开发,专为高吞吐量和多硬件兼容性而设计。它通过卷积编码量化支持 4 位和 2 位无损量化,能够在显存受限的硬件上高效运行。该模型的推理能力通过“带图思考”功能得到增强,允许系统自主调用图像缩放或外部搜索等工具,以解决细粒度细节或长尾视觉知识。这些特性使其在企业级多模态智能体、工业视觉定位以及聚焦 STEM 的问题解决场景中尤为有效。

关于 ERNIE 4.5

百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。


其他 ERNIE 4.5 模型

评估基准

没有可用的 ERNIE-4.5-VL-28B-A3B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

74 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU

ERNIE-4.5-VL-28B-A3B:规格和 GPU 显存要求