趋近智
活跃参数
424B
上下文长度
131.072K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
30 Jun 2025
训练数据截止日期
Jun 2025
注意力
注意力结构
Grouped-Query Attention
注意力头
64
键值头
8
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
8,192
层数
54
FFN 中间层大小(稠密层)
28,672
多 Token 预测头数
-
分词器
词汇量大小
103,424
混合专家
专家参数总数
47.0B
专家数量
128
活跃专家
16
共享专家数
-
FFN 中间层大小(每专家)
-
MoE 前的稠密层数
3
ERNIE-4.5-VL-424B-A47B 是由百度开发的多模态基座模型,代表了文心 4.5 系列的旗舰变体。该模型旨在利用大规模混合专家(MoE)框架,跨文本和视觉模态处理并生成内容。通过集成 4240 亿总参数,并实现每 token 470 亿参数的稀疏激活,该模型在保持高容量表征能力的同时,优化了计算吞吐量。其设计旨在支持需要高级逻辑、全面文档分析以及复杂多模态对话交互的应用场景。
该模型采用了异构 MoE 架构,在区分文本和视觉处理的同时,保持了统一的隐层状态。它总共包含 128 个专家,包括 64 个文本专用专家和 64 个视觉专用专家,并通过路由机制为每个 token 在相应模态中选择 8 个激活专家。为了在确保有效的跨模态融合的同时,避免特定领域的性能下降,系统采用了共享自注意力层和共享专家,并辅以模态隔离路由。注意力机制基于分组查询注意力(GQA),包含 64 个查询头和 8 个键值头,并针对 131,072 个 token 的上下文窗口进行了优化。
训练和推理由飞桨(PaddlePaddle)深度学习框架提供支持,通过 4 比特和 2 比特无损量化支持工业级部署。该架构支持两种不同的运行模式:用于快速感知任务的标准推理模式,以及用于处理复杂逻辑问题的重推理模式。主要应用场景包括视觉问答、复杂的图表和文档解析,以及自动化的多模态内容生成。在视觉编码器中引入 2D 旋转位置嵌入(RoPE),并在 Transformer 骨干网络中引入绝对位置嵌入,确保了在不同输入类型下精确的空间和序列建模。
百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。
没有可用的 ERNIE-4.5-VL-424B-A47B 评估基准。
APX AI
在线