趋近智
活跃参数
21B
上下文长度
131.072K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
30 Jun 2025
训练数据截止日期
Dec 2024
注意力
注意力结构
Grouped-Query Attention
注意力头
20
键值头
4
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
2,560
层数
28
FFN 中间层大小(稠密层)
1,536
多 Token 预测头数
-
分词器
词汇量大小
103,424
混合专家
专家参数总数
3.0B
专家数量
64
活跃专家
6
共享专家数
2
FFN 中间层大小(每专家)
1,536
MoE 前的稠密层数
1
ERNIE-4.5-21B-A3B-Base 模型是一款以文本为核心的混合专家(MoE)Transformer 模型,是百度文心(ERNIE)4.5 模型系列的核心组件。该特定变体通过模态特定提取过程衍生而来,从涉及数万亿 token 的大规模多模态预训练阶段中分离出文本相关的参数。其架构特征在于异构 MoE 结构,支持在训练期间跨模态共享参数,同时为特定数据类型保留专用专家。这种设计确保了文本表征不会因多模态联合训练而受损,从而在中文和英文的自然语言理解与生成方面实现高性能。
在技术层面,该模型采用稀疏架构,每层包含 64 个专家,通过路由机制为每个 token 激活 6 个专家,使得每次前向传播约有 30 亿个激活参数。这种稀疏性显著降低了计算开销,同时保持了 210 亿参数大模型的表征能力。注意力机制采用分组查询注意力(GQA),包含 20 个查询头和 4 个键值头,优化了显存带宽和推理速度。二维旋转位置嵌入(2D RoPE)的集成以及对 131,072 token 上下文窗口的支持,使其在处理长文档和复杂推理任务时非常高效。
为便于高效部署,文心 4.5 系列基于飞桨(PaddlePaddle)框架构建,并结合了多项硬件级优化,包括 FP8 混合精度训练和多专家并行协作。该模型支持 4 位和 2 位无损压缩等先进量化技术,使其能够在降低显存需求的情况下在多种硬件平台上运行。通过利用模态隔离路由和专用路由损失,该模型实现了极高的参数效率,适用于从复杂摘要到生产环境下的跨模态推理等工业级应用。
百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。
没有可用的 ERNIE-4.5-21B-A3B-Base 评估基准。
APX AI
在线