趋近智
活跃参数
300B
上下文长度
131K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
30 Jun 2025
训练数据截止日期
Mar 2025
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
34x RTX 4090
24GB VRAM
数据中心
10x NVIDIA A100
80GB VRAM
Apple Silicon
7x Apple M3 Max
128GB VRAM
131072 个令牌
消费级
36x RTX 4090
24GB VRAM
数据中心
10x NVIDIA A100
80GB VRAM
Apple Silicon
8x Apple M3 Max
128GB VRAM
没有可用的 ERNIE-4.5-300B-A47B 评估基准。
排名
-
编程排名
-
ERNIE-4.5-300B-A47B 是由百度开发的文心大模型(ERNIE)4.5 系列的核心组件,是一款大规模混合专家(MoE)基座模型。虽然该系列整体涵盖了多模态能力,但这一特定变体是专注于文本的模型,针对中英文的高级自然语言理解、复杂推理和高性能文本生成进行了优化。它为知识密集型任务提供了高容量的解决方案,在 3000 亿参数系统的海量知识库与稀疏激活的计算效率之间取得了平衡。
技术架构上,该模型采用了新型异构 MoE 结构,在促进参数共享的同时,利用模态隔离路由防止预训练期间的跨模态干扰。它包含 54 个 Transformer 层和总计 64 个专家,每个 token 激活 8 个专家,从而在推理时产生 470 亿个激活参数。该模型利用分组查询注意力(GQA),配备 64 个查询头和 8 个键值头,以优化显存带宽和吞吐量。训练过程在飞桨(PaddlePaddle)深度学习框架上完成,结合了节点内专家并行、内存高效的流水线调度以及 FP8 混合精度训练,以实现极高的硬件利用率。
通过支持近乎无损的 4 位和 2 位量化,模型的运行效率得到了进一步提升,使其能够部署在包括单卡和多 GPU 配置在内的各种硬件环境中。该模型维持了 131,072 个 token 的超长上下文窗口,能够处理长文档并在长对话中保持连贯性。在后训练阶段,模型经过了有监督微调(SFT)、直接偏好优化(DPO)和统一偏好优化(UPO),以确保输出与用户指令对齐,并保证在生产环境中的鲁棒性能。
注意力
注意力结构
Grouped-Query Attention
注意力头
64
键值头
8
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
8,192
层数
54
FFN 中间层大小(稠密层)
3,584
多 Token 预测头数
1
分词器
词汇量大小
103,424
混合专家
专家参数总数
47.0B
专家数量
64
活跃专家
8
共享专家数
0
FFN 中间层大小(每专家)
3,584
MoE 前的稠密层数
3
百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。
APX AI
在线