ApX 标志ApX 标志

趋近智

ERNIE-4.5-21B-A3B-Base

活跃参数

21B

上下文长度

131.072K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

30 Jun 2025

训练数据截止日期

Dec 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

20

键值头

4

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,560

层数

28

FFN 中间层大小(稠密层)

1,536

多 Token 预测头数

-

分词器

词汇量大小

103,424

混合专家

专家参数总数

3.0B

专家数量

64

活跃专家

6

共享专家数

2

FFN 中间层大小(每专家)

1,536

MoE 前的稠密层数

1

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 2.6k · Context: 131.1k · Vocab: 103.4kx 28 layersRMSNormPre-AttentionGrouped-Query Attention20Q / 4KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (6/64 experts)SwiGLUIntermediate: 1.5k+Final RMSNormOutput Logits

ERNIE-4.5-21B-A3B-Base

ERNIE-4.5-21B-A3B-Base 模型是一款以文本为核心的混合专家(MoE)Transformer 模型,是百度文心(ERNIE)4.5 模型系列的核心组件。该特定变体通过模态特定提取过程衍生而来,从涉及数万亿 token 的大规模多模态预训练阶段中分离出文本相关的参数。其架构特征在于异构 MoE 结构,支持在训练期间跨模态共享参数,同时为特定数据类型保留专用专家。这种设计确保了文本表征不会因多模态联合训练而受损,从而在中文和英文的自然语言理解与生成方面实现高性能。

在技术层面,该模型采用稀疏架构,每层包含 64 个专家,通过路由机制为每个 token 激活 6 个专家,使得每次前向传播约有 30 亿个激活参数。这种稀疏性显著降低了计算开销,同时保持了 210 亿参数大模型的表征能力。注意力机制采用分组查询注意力(GQA),包含 20 个查询头和 4 个键值头,优化了显存带宽和推理速度。二维旋转位置嵌入(2D RoPE)的集成以及对 131,072 token 上下文窗口的支持,使其在处理长文档和复杂推理任务时非常高效。

为便于高效部署,文心 4.5 系列基于飞桨(PaddlePaddle)框架构建,并结合了多项硬件级优化,包括 FP8 混合精度训练和多专家并行协作。该模型支持 4 位和 2 位无损压缩等先进量化技术,使其能够在降低显存需求的情况下在多种硬件平台上运行。通过利用模态隔离路由和专用路由损失,该模型实现了极高的参数效率,适用于从复杂摘要到生产环境下的跨模态推理等工业级应用。

关于 ERNIE 4.5

百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。


其他 ERNIE 4.5 模型

评估基准

没有可用的 ERNIE-4.5-21B-A3B-Base 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

73 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU

ERNIE-4.5-21B-A3B-Base:规格和 GPU 显存要求