ApX 标志ApX 标志

趋近智

ERNIE-4.5-0.3B

参数

300M

上下文长度

131.072K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

30 Jun 2025

训练数据截止日期

Dec 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

16

键值头

2

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

1,024

层数

18

FFN 中间层大小(稠密层)

3,072

多 Token 预测头数

-

分词器

词汇量大小

103,424

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 1k · Context: 131.1k · Vocab: 103.4kx 18 layersRMSNormPre-AttentionMulti-Head Attention16Q / 2KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwishIntermediate: 3.1k+Final RMSNormOutput Logits

ERNIE-4.5-0.3B

ERNIE-4.5-0.3B 模型是一款高效的 Transformer 模型,旨在作为百度 ERNIE 4.5 模型家族的精简级入门版本。该模型专为低延迟推理和高吞吐量环境而设计,在优先保证中英文语言能力的同时,最大限度地减少了大语言模型常见的计算开销。其设计理念平衡了深度语言理解需求与边缘计算及移动端部署的实际运行需求,为实时文本处理提供了通用的解决方案。

在技术层面,ERNIE-4.5-0.3B 采用了稠密 Transformer 架构,包含 18 层,隐藏层维度为 1024。与其同系列中规模较大的混合专家(MoE)模型不同,该变体在处理每个 token 时都会激活所有参数,从而确保了一致的性能特征并简化了部署流程。该模型集成了分组查询注意力(GQA)机制,拥有 16 个查询头和 2 个键值头,以优化长上下文生成过程中的显存占用和运行速度。它支持高达 131,072 个 token 的超长上下文窗口,使其能够处理长篇文档并在长序列中保持连贯性。

从性能角度看,ERNIE-4.5-0.3B 针对高速文本补全、情感分析和端侧对话机器人进行了优化。它融合了 ERNIE 4.5 项目中先进的训练方法,包括 RMS 归一化(RMS Normalization)和 Swish (SiLU) 激活函数,这些技术有助于提升其训练稳定性和表征能力。该模型全面兼容 vLLM 和 FastDeploy 等现代推理引擎,并以 Apache 2.0 许可证发布,旨在促进开源生态系统中的学术研究和商业应用开发。

关于 ERNIE 4.5

百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。


其他 ERNIE 4.5 模型

评估基准

没有可用的 ERNIE-4.5-0.3B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

69 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU