ApX 标志ApX 标志

趋近智

ERNIE-4.5-21B-A3B

活跃参数

21B

上下文长度

131K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

30 Jun 2025

训练数据截止日期

Dec 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

20

键值头

4

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

2,560

层数

28

FFN 中间层大小(稠密层)

1,536

多 Token 预测头数

1

分词器

词汇量大小

103,424

混合专家

专家参数总数

3.0B

专家数量

64

活跃专家

6

共享专家数

2

FFN 中间层大小(每专家)

1,536

MoE 前的稠密层数

1

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 2.6k · Context: 131K · Vocab: 103.4kx 28 layersRMSNormPre-AttentionGrouped-Query Attention20Q / 4KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (6/64 experts)SwishIntermediate: 1.5k+Final RMSNormOutput Logits

ERNIE-4.5-21B-A3B

ERNIE-4.5-21B-A3B 是百度文心 (ERNIE) 4.5 系列中的一款高效大语言模型,专为高级文本理解和复杂推理任务而设计。作为一种混合专家 (MoE) 模型,它拥有 210 亿的总参数量,而每个 token 仅激活 30 亿参数。这种架构策略使模型能够达到更大规模系统的性能水平,同时保持适合敏捷部署的计算开销。该模型源自更广泛的多模态系列,但这一特定变体经过后训练,在自然语言处理、逻辑演绎和结构化工具调用方面表现出色。

ERNIE-4.5-21B-A3B 的技术骨干采用了细粒度异构 MoE 结构,旨在减轻初始预训练期间的跨模态干扰。它每层包含 64 个专家,通过路由机制为每个 token 选择 6 个激活专家,并配合 2 个共享专家以促进全局知识整合。该架构引入了分组查询注意力 (GQA) 以优化显存吞吐量,并采用了带有渐进式频率缩放方法的旋转位置嵌入 (RoPE)。这种缩放技术使模型能够原生支持 131,072 个 token 的上下文窗口,使其在处理长文档和多步推理链时非常有效,且不会出现上下文扩展模型中常见的性能退化。

该模型针对生产级环境进行了优化,支持包括 4 位和 2 位卷积代码量化在内的高级量化技术,从而最大限度地降低推理时的显存需求。训练基础设施利用 FP8 混合精度和层级负载均衡来确保专家的稳定性和高吞吐量。ERNIE-4.5-21B-A3B 旨在实现跨深度学习生态系统的互操作性,兼容飞桨 (PaddlePaddle) 框架,并提供 PyTorch 格式的权重,以便集成到标准的 Transformers 流水线中。通过对函数调用和结构化数据交互的原生支持,其功能得到了进一步扩展,使其成为智能体 (agentic) 工作流和自动化技术任务的理想基础。

关于 ERNIE 4.5

百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。


其他 ERNIE 4.5 模型

评估基准

排名

#158

基准分数排名

通用知识

MMLU

0.419

36

排名

排名

#158

编程排名

-

模型完整性

总分

B+

73 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU