趋近智
活跃参数
300B
上下文长度
131.072K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
30 Jun 2025
训练数据截止日期
Jun 2025
专家参数总数
47.0B
专家数量
64
活跃专家
8
注意力结构
Grouped-Query Attention
隐藏维度大小
12288
层数
54
注意力头
64
键值头
8
激活函数
GELU
归一化
Layer Normalization
位置嵌入
Absolute Position Embedding
ERNIE-4.5-300B-A47B-Base 模型由百度开发,是一款采用混合专家(MoE)架构的大规模语言模型。作为 ERNIE 4.5 系列的重要成员,它拥有 3000 亿的总参数量,并通过稀疏门控机制在处理每个 token 时激活 470 亿参数。这种设计使模型能够在不导致单 token 推理成本线性增加的情况下,显著扩展其知识容量。该模型针对中英文环境下的高级文本推理、代码生成和复杂指令遵循进行了专门优化。
在技术层面,该模型引入了多模态异构 MoE 结构,并在数万亿 token 的文本与视觉模态联合框架下进行了预训练。一项核心架构创新是模态隔离路由技术,它确保了针对单一模态的专家专业化不会对另一模态的性能产生负面影响。A47B-Base 变体代表了在完成大规模多模态预训练后提取出的文本相关参数。它采用了分组查询注意力(GQA)机制,包含 64 个查询头和 8 个键值头,以在长上下文处理过程中实现注意力质量与显存效率之间的平衡。
该架构基于飞桨(PaddlePaddle)深度学习框架构建,并支持高达 131,072 个 token 的超长上下文窗口。为了管理 300B 参数系统的计算需求,百度实现了高效扩展的基础设施特性,例如节点内专家并行、显存高效的流水线调度以及 FP8 混合精度训练。该模型专为高吞吐部署环境设计,并支持先进的推理优化技术,包括具有动态角色切换功能的预填充-解码(PD)分离技术,以实现硬件利用率的最大化。
百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。
没有可用的 ERNIE-4.5-300B-A47B-Base 评估基准。