ApX 标志ApX 标志

趋近智

ERNIE-4.5-300B-A47B

活跃参数

300B

上下文长度

131K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

30 Jun 2025

训练数据截止日期

Mar 2025

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

631.74 GB VRAM

消费级

34x RTX 4090

24GB VRAM

数据中心

10x NVIDIA A100

80GB VRAM

Apple Silicon

7x Apple M3 Max

128GB VRAM

131072 个令牌

661.94 GB VRAM

消费级

36x RTX 4090

24GB VRAM

数据中心

10x NVIDIA A100

80GB VRAM

Apple Silicon

8x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 8.2k · Context: 131K · Vocab: 103.4kx 54 layersRMSNormPre-AttentionGrouped-Query Attention64Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (8/64 experts)SwishIntermediate: 3.6k+Final RMSNormOutput Logits

评估基准

没有可用的 ERNIE-4.5-300B-A47B 评估基准。

排名

排名

-

编程排名

-

关于 ERNIE-4.5-300B-A47B

ERNIE-4.5-300B-A47B 是由百度开发的文心大模型(ERNIE)4.5 系列的核心组件,是一款大规模混合专家(MoE)基座模型。虽然该系列整体涵盖了多模态能力,但这一特定变体是专注于文本的模型,针对中英文的高级自然语言理解、复杂推理和高性能文本生成进行了优化。它为知识密集型任务提供了高容量的解决方案,在 3000 亿参数系统的海量知识库与稀疏激活的计算效率之间取得了平衡。

技术架构上,该模型采用了新型异构 MoE 结构,在促进参数共享的同时,利用模态隔离路由防止预训练期间的跨模态干扰。它包含 54 个 Transformer 层和总计 64 个专家,每个 token 激活 8 个专家,从而在推理时产生 470 亿个激活参数。该模型利用分组查询注意力(GQA),配备 64 个查询头和 8 个键值头,以优化显存带宽和吞吐量。训练过程在飞桨(PaddlePaddle)深度学习框架上完成,结合了节点内专家并行、内存高效的流水线调度以及 FP8 混合精度训练,以实现极高的硬件利用率。

通过支持近乎无损的 4 位和 2 位量化,模型的运行效率得到了进一步提升,使其能够部署在包括单卡和多 GPU 配置在内的各种硬件环境中。该模型维持了 131,072 个 token 的超长上下文窗口,能够处理长文档并在长对话中保持连贯性。在后训练阶段,模型经过了有监督微调(SFT)、直接偏好优化(DPO)和统一偏好优化(UPO),以确保输出与用户指令对齐,并保证在生产环境中的鲁棒性能。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

64

键值头

8

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

8,192

层数

54

FFN 中间层大小(稠密层)

3,584

多 Token 预测头数

1

分词器

词汇量大小

103,424

混合专家

专家参数总数

47.0B

专家数量

64

活跃专家

8

共享专家数

0

FFN 中间层大小(每专家)

3,584

MoE 前的稠密层数

3

模型完整性

总分

B+

72 / 100

关于 ERNIE 4.5

百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。


其他 ERNIE 4.5 模型