趋近智
参数
300M
上下文长度
131K
模态
Text
架构
Dense
许可证
Apache License 2.0
发布日期
30 Jun 2025
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
16
键值头
2
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
1,024
层数
18
FFN 中间层大小(稠密层)
3,072
多 Token 预测头数
-
分词器
词汇量大小
103,424
ERNIE-4.5-0.3B-Base 模型是百度文心 (ERNIE) 4.5 系列基座大模型的成员,专为通用文本理解和生成任务而设计。该变体的特点是尺寸紧凑,拥有 3.6 亿个参数,并采用稠密架构设计,使其适用于计算资源有限的环境,或需要轻量级推理占用的应用场景。作为基于 Apache License 2.0 协议的开源产品,它为开发者和研究人员提供了一个基础语言模型,以便在各种以文本为核心的系统中进行构建和集成。
从架构上看,ERNIE-4.5-0.3B-Base 实现了包含 18 层的 Transformer 结构。它使用了 16 个查询(Query)注意力头和 2 个键值(Key-Value)头,表明其采用了分组查询注意力(GQA)机制以实现高效处理。该模型经过训练可支持高达 131,072 个 token 的长上下文,使其能够在长序列中处理并生成连贯的文本。与 ERNIE 4.5 系列中的其他一些变体不同,该模型采用的是稠密架构而非混合专家(MoE)结构。其隐藏层维度为 1024,并使用了 RMS 归一化(RMS Normalization)和 Swish (SiLU) 激活函数。此外,模型还采用了绝对位置嵌入。
该模型主要针对文本补全进行了优化,并可以通过多种方法(包括有监督微调 (SFT)、低秩自适应 (LoRA) 和直接偏好优化 (DPO))针对特定应用进行微调。它与 Hugging Face Transformers 和百度 FastDeploy 工具包等广泛使用的框架兼容,从而简化了将其集成到现有开发工作流的过程。该模型设计支持中英双语。
百度 ERNIE 4.5 系列包含十个大规模多模态模型。该系列采用异构专家混合(MoE)架构,在支持跨模态参数共享的同时,也为特定模态配置了专用参数,从而实现了高效的语言和多模态处理。
没有可用的 ERNIE-4.5-0.3B-Base 评估基准。
APX AI
在线