ApX 标志ApX 标志

趋近智

ERNIE-4.5-300B-A47B-Base

活跃参数

300B

上下文长度

131.072K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

30 Jun 2025

训练数据截止日期

Jun 2025

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

64

键值头

8

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

Layer Normalization

激活函数

GELU

维度

隐藏维度大小

12,288

层数

54

FFN 中间层大小(稠密层)

3,584

多 Token 预测头数

-

分词器

词汇量大小

103,424

混合专家

专家参数总数

47.0B

专家数量

64

活跃专家

8

共享专家数

0

FFN 中间层大小(每专家)

3,584

MoE 前的稠密层数

3

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 12.3k · Context: 131.1k · Vocab: 103.4kx 54 layersLayerNormPre-AttentionGrouped-Query Attention64Q / 8KV headsHead dim: 192+LayerNormPre-FFNSparse MoE FFN (8/64 experts)GELUIntermediate: 3.6k+Final LayerNormOutput Logits

ERNIE-4.5-300B-A47B-Base

ERNIE-4.5-300B-A47B-Base 模型由百度开发,是一款采用混合专家(MoE)架构的大规模语言模型。作为 ERNIE 4.5 系列的重要成员,它拥有 3000 亿的总参数量,并通过稀疏门控机制在处理每个 token 时激活 470 亿参数。这种设计使模型能够在不导致单 token 推理成本线性增加的情况下,显著扩展其知识容量。该模型针对中英文环境下的高级文本推理、代码生成和复杂指令遵循进行了专门优化。

在技术层面,该模型引入了多模态异构 MoE 结构,并在数万亿 token 的文本与视觉模态联合框架下进行了预训练。一项核心架构创新是模态隔离路由技术,它确保了针对单一模态的专家专业化不会对另一模态的性能产生负面影响。A47B-Base 变体代表了在完成大规模多模态预训练后提取出的文本相关参数。它采用了分组查询注意力(GQA)机制,包含 64 个查询头和 8 个键值头,以在长上下文处理过程中实现注意力质量与显存效率之间的平衡。

该架构基于飞桨(PaddlePaddle)深度学习框架构建,并支持高达 131,072 个 token 的超长上下文窗口。为了管理 300B 参数系统的计算需求,百度实现了高效扩展的基础设施特性,例如节点内专家并行、显存高效的流水线调度以及 FP8 混合精度训练。该模型专为高吞吐部署环境设计,并支持先进的推理优化技术,包括具有动态角色切换功能的预填充-解码(PD)分离技术,以实现硬件利用率的最大化。

关于 ERNIE 4.5

百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。


其他 ERNIE 4.5 模型

评估基准

没有可用的 ERNIE-4.5-300B-A47B-Base 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU