趋近智
活跃参数
424B
上下文长度
131.072K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
30 Jun 2025
训练数据截止日期
Jun 2025
注意力
注意力结构
Grouped-Query Attention
注意力头
64
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
4,096
层数
54
FFN 中间层大小(稠密层)
28,672
多 Token 预测头数
-
分词器
词汇量大小
103,424
混合专家
专家参数总数
47.0B
专家数量
128
活跃专家
16
共享专家数
-
FFN 中间层大小(每专家)
-
MoE 前的稠密层数
3
ERNIE-4.5-VL-424B-A47B-Base 是百度文心 (ERNIE) 4.5 系列中的旗舰级多模态基座大模型,其特点是拥有超大规模和先进的架构设计。该变体作为基座模型,经过预训练,可实现全面的跨模态推理以及对文本、图像和视频的高保真理解。它采用了异构混合专家 (MoE) 框架,使系统规模达到 4240 亿参数,同时通过每个 Token 仅激活 470 亿参数来保持计算效率。该模型专为处理复杂的多模态工作流而设计,包括内容分析、复杂的视觉语言推理以及跨多种数据类型的长上下文信息处理。
该模型的技术核心围绕一种新型的多模态异构 MoE 结构,该结构集成了模态隔离路由和共享参数层。这种架构利用模态特定专家来保留文本和视觉数据的独特特征,同时利用共享注意力机制促进模态间的相互增强。为了确保大规模预训练期间学习的稳定与平衡,模型引入了路由正交损失和多模态 Token 平衡损失,防止任何单一模态主导梯度更新。视觉栈通过可变分辨率视觉 Transformer (ViT) 编码器和将视觉特征投射到统一嵌入空间的适配器得到进一步增强,并支持用于精确空间定位的二维旋转位置嵌入 (2D RoPE)。
ERNIE-4.5-VL-424B-A47B-Base 基于飞桨 (PaddlePaddle) 框架构建,针对高性能部署进行了优化,支持多专家并行协作和卷积码量化等先进推理技术。这使得模型能够实现近乎无损的 4 位和 2 位量化,从而允许在更普及的硬件配置上部署这一大规模系统。凭借 131,072 个 Token 的超长上下文窗口,以及对“思考”和“非思考”推理模式的支持,该模型适用于需要对长文档或复杂视频序列进行深度语义推理的工业级应用。
百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。
没有可用的 ERNIE-4.5-VL-424B-A47B-Base 评估基准。
APX AI
在线