趋近智
活跃参数
28B
上下文长度
131.072K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
30 Jun 2025
训练数据截止日期
Dec 2024
专家参数总数
3.0B
专家数量
130
活跃专家
14
注意力结构
Grouped-Query Attention
隐藏维度大小
3584
层数
28
注意力头
20
键值头
4
激活函数
SwigLU
归一化
RMS Normalization
位置嵌入
Absolute Position Embedding
ERNIE-4.5-VL-28B-A3B 是由百度开发的一款多模态专家混合(MoE)基础模型,旨在高效的计算范畴内提供先进的视觉语言理解能力。该模型变体通过在任何给定的前向传播过程中仅激活其总参数的一个子集,旨在弥合高容量推理与可部署推理之间的差距。它支持复杂的多模态任务,包括文档和图表解读、细粒度视觉感知以及视频序列的时序分析。其显著特征是集成了“思考”模式,该模式利用多步推理过程来处理需要视觉和文本数据之间更深层语义对齐的复杂查询。
在技术层面,该模型基于异构 MoE 架构构建,有助于在互不干扰的情况下对不同模态进行联合预训练。这是通过模态隔离路由以及路由正交损失和多模态 Token 平衡损失的应用实现的,确保视觉和语言专家在强化相互理解的同时开发专门的表示。视觉组件使用可变分辨率视觉 Transformer (ViT) 编码器,将视觉特征投影到共享嵌入空间中。该架构结合了分组查询注意力 (GQA) 和旋转位置嵌入 (RoPE) 以管理其高达 131,072 个 token 的超长上下文,而直接偏好优化 (DPO) 和基于可验证奖励的强化学习 (RLVR) 等后训练优化进一步完善了其对齐和推理精度。
从性能和部署的角度来看,ERNIE-4.5-VL-28B-A3B 基于飞桨 (PaddlePaddle) 框架开发,专为高吞吐量和多硬件兼容性而设计。它通过卷积编码量化支持 4 位和 2 位无损量化,能够在显存受限的硬件上高效运行。该模型的推理能力通过“带图思考”功能得到增强,允许系统自主调用图像缩放或外部搜索等工具,以解决细粒度细节或长尾视觉知识。这些特性使其在企业级多模态智能体、工业视觉定位以及聚焦 STEM 的问题解决场景中尤为有效。
百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。
没有可用的 ERNIE-4.5-VL-28B-A3B 评估基准。