ApX 标志ApX 标志

趋近智

ERNIE-4.5-VL-28B-A3B-Base

活跃参数

28B

上下文长度

131.072K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

30 Jun 2025

训练数据截止日期

Nov 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

20

键值头

4

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,560

层数

28

FFN 中间层大小(稠密层)

12,288

多 Token 预测头数

-

分词器

词汇量大小

103,424

混合专家

专家参数总数

3.0B

专家数量

130

活跃专家

14

共享专家数

2

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 2.6k · Context: 131.1k · Vocab: 103.4kx 28 layersRMSNormPre-AttentionGrouped-Query Attention20Q / 4KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (14/130 experts)SwiGLU+Final RMSNormOutput Logits

ERNIE-4.5-VL-28B-A3B-Base

ERNIE-4.5-VL-28B-A3B-Base 是由百度开发的多模态混合专家 (MoE) 基座模型,属于文心大模型 (ERNIE) 4.5 系列。该模型专为复杂的视觉语言任务而设计,总参数量达 280 亿,但在推理过程中每个 Token 仅激活 30 亿参数。这种稀疏激活策略使模型在保持大规模系统广泛知识容量的同时,显著降低了高参数模型通常带来的计算开销和延迟。它旨在处理和综合包括文本、图像和视频在内的多种模态信息,并支持高达 131,072 个 Token 的超长上下文。

ERNIE-4.5-VL 系列的技术架构引入了异构 MoE 结构,既实现了跨模态的参数共享,又为特定模态配置了专用参数。其关键创新包括:防止文本和视觉学习相互干扰的模态隔离路由,以及确保专家调用率稳定的路由正交损失和多模态 Token 平衡损失机制。此外,模型采用分组查询注意力 (GQA) 以优化内存管理,并利用旋转位置嵌入 (RoPE) 来处理长上下文窗口。训练过程在飞桨 (PaddlePaddle) 深度学习框架上完成,采用了包括节点内专家并行和 FP8 混合精度训练在内的先进并行化策略。

在应用层面,ERNIE-4.5-VL-28B-A3B-Base 可作为需要高保真跨模态推理应用的通用骨干网络。它支持不同的功能模式,包括用于增强逻辑推理的“思考”模式,以及针对文档分析、光学字符识别 (OCR) 和视觉知识检索等感知任务优化的“非思考”模式。其能力还扩展到了智能体 (Agentic) 交互,能够利用外部工具进行精细化的图像缩放或搜索。该模型以 Apache 2.0 许可证开源权重,为开发者和研究人员在各类硬件平台上部署多模态解决方案提供了灵活的资源。

关于 ERNIE 4.5

百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。


其他 ERNIE 4.5 模型

评估基准

没有可用的 ERNIE-4.5-VL-28B-A3B-Base 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU

ERNIE-4.5-VL-28B-A3B-Base:规格和 GPU 显存要求