趋近智
活跃参数
28B
上下文长度
131.072K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
30 Jun 2025
训练数据截止日期
Nov 2024
注意力
注意力结构
Grouped-Query Attention
注意力头
20
键值头
4
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
2,560
层数
28
FFN 中间层大小(稠密层)
12,288
多 Token 预测头数
-
分词器
词汇量大小
103,424
混合专家
专家参数总数
3.0B
专家数量
130
活跃专家
14
共享专家数
2
FFN 中间层大小(每专家)
-
MoE 前的稠密层数
-
ERNIE-4.5-VL-28B-A3B-Base 是由百度开发的多模态混合专家 (MoE) 基座模型,属于文心大模型 (ERNIE) 4.5 系列。该模型专为复杂的视觉语言任务而设计,总参数量达 280 亿,但在推理过程中每个 Token 仅激活 30 亿参数。这种稀疏激活策略使模型在保持大规模系统广泛知识容量的同时,显著降低了高参数模型通常带来的计算开销和延迟。它旨在处理和综合包括文本、图像和视频在内的多种模态信息,并支持高达 131,072 个 Token 的超长上下文。
ERNIE-4.5-VL 系列的技术架构引入了异构 MoE 结构,既实现了跨模态的参数共享,又为特定模态配置了专用参数。其关键创新包括:防止文本和视觉学习相互干扰的模态隔离路由,以及确保专家调用率稳定的路由正交损失和多模态 Token 平衡损失机制。此外,模型采用分组查询注意力 (GQA) 以优化内存管理,并利用旋转位置嵌入 (RoPE) 来处理长上下文窗口。训练过程在飞桨 (PaddlePaddle) 深度学习框架上完成,采用了包括节点内专家并行和 FP8 混合精度训练在内的先进并行化策略。
在应用层面,ERNIE-4.5-VL-28B-A3B-Base 可作为需要高保真跨模态推理应用的通用骨干网络。它支持不同的功能模式,包括用于增强逻辑推理的“思考”模式,以及针对文档分析、光学字符识别 (OCR) 和视觉知识检索等感知任务优化的“非思考”模式。其能力还扩展到了智能体 (Agentic) 交互,能够利用外部工具进行精细化的图像缩放或搜索。该模型以 Apache 2.0 许可证开源权重,为开发者和研究人员在各类硬件平台上部署多模态解决方案提供了灵活的资源。
百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。
没有可用的 ERNIE-4.5-VL-28B-A3B-Base 评估基准。
APX AI
在线