趋近智
参数
300M
上下文长度
131.072K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
30 Jun 2025
训练数据截止日期
Dec 2024
注意力
注意力结构
Multi-Head Attention
注意力头
16
键值头
2
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
1,024
层数
18
FFN 中间层大小(稠密层)
3,072
多 Token 预测头数
-
分词器
词汇量大小
103,424
ERNIE-4.5-0.3B 模型是一款高效的 Transformer 模型,旨在作为百度 ERNIE 4.5 模型家族的精简级入门版本。该模型专为低延迟推理和高吞吐量环境而设计,在优先保证中英文语言能力的同时,最大限度地减少了大语言模型常见的计算开销。其设计理念平衡了深度语言理解需求与边缘计算及移动端部署的实际运行需求,为实时文本处理提供了通用的解决方案。
在技术层面,ERNIE-4.5-0.3B 采用了稠密 Transformer 架构,包含 18 层,隐藏层维度为 1024。与其同系列中规模较大的混合专家(MoE)模型不同,该变体在处理每个 token 时都会激活所有参数,从而确保了一致的性能特征并简化了部署流程。该模型集成了分组查询注意力(GQA)机制,拥有 16 个查询头和 2 个键值头,以优化长上下文生成过程中的显存占用和运行速度。它支持高达 131,072 个 token 的超长上下文窗口,使其能够处理长篇文档并在长序列中保持连贯性。
从性能角度看,ERNIE-4.5-0.3B 针对高速文本补全、情感分析和端侧对话机器人进行了优化。它融合了 ERNIE 4.5 项目中先进的训练方法,包括 RMS 归一化(RMS Normalization)和 Swish (SiLU) 激活函数,这些技术有助于提升其训练稳定性和表征能力。该模型全面兼容 vLLM 和 FastDeploy 等现代推理引擎,并以 Apache 2.0 许可证发布,旨在促进开源生态系统中的学术研究和商业应用开发。
百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。
没有可用的 ERNIE-4.5-0.3B 评估基准。
APX AI
在线