趋近智
活跃参数
21B
上下文长度
131K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
30 Jun 2025
训练数据截止日期
Dec 2024
注意力
注意力结构
Grouped-Query Attention
注意力头
20
键值头
4
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
2,560
层数
28
FFN 中间层大小(稠密层)
1,536
多 Token 预测头数
1
分词器
词汇量大小
103,424
混合专家
专家参数总数
3.0B
专家数量
64
活跃专家
6
共享专家数
2
FFN 中间层大小(每专家)
1,536
MoE 前的稠密层数
1
ERNIE-4.5-21B-A3B 是百度文心 (ERNIE) 4.5 系列中的一款高效大语言模型,专为高级文本理解和复杂推理任务而设计。作为一种混合专家 (MoE) 模型,它拥有 210 亿的总参数量,而每个 token 仅激活 30 亿参数。这种架构策略使模型能够达到更大规模系统的性能水平,同时保持适合敏捷部署的计算开销。该模型源自更广泛的多模态系列,但这一特定变体经过后训练,在自然语言处理、逻辑演绎和结构化工具调用方面表现出色。
ERNIE-4.5-21B-A3B 的技术骨干采用了细粒度异构 MoE 结构,旨在减轻初始预训练期间的跨模态干扰。它每层包含 64 个专家,通过路由机制为每个 token 选择 6 个激活专家,并配合 2 个共享专家以促进全局知识整合。该架构引入了分组查询注意力 (GQA) 以优化显存吞吐量,并采用了带有渐进式频率缩放方法的旋转位置嵌入 (RoPE)。这种缩放技术使模型能够原生支持 131,072 个 token 的上下文窗口,使其在处理长文档和多步推理链时非常有效,且不会出现上下文扩展模型中常见的性能退化。
该模型针对生产级环境进行了优化,支持包括 4 位和 2 位卷积代码量化在内的高级量化技术,从而最大限度地降低推理时的显存需求。训练基础设施利用 FP8 混合精度和层级负载均衡来确保专家的稳定性和高吞吐量。ERNIE-4.5-21B-A3B 旨在实现跨深度学习生态系统的互操作性,兼容飞桨 (PaddlePaddle) 框架,并提供 PyTorch 格式的权重,以便集成到标准的 Transformers 流水线中。通过对函数调用和结构化数据交互的原生支持,其功能得到了进一步扩展,使其成为智能体 (agentic) 工作流和自动化技术任务的理想基础。
百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。
排名
#158
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.419 | 36 |
APX AI
在线