趋近智
参数
500M
上下文长度
32.768K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
19 Sept 2024
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
16
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
32,768
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
768
层数
24
FFN 中间层大小(稠密层)
4,864
多 Token 预测头数
-
分词器
词汇量大小
151,936
Qwen2.5-0.5B 是由阿里云 Qwen 团队开发的基础大语言模型。它是 Qwen2.5 系列的一部分,该系列代表了语言模型能力的进步,在知识获取、编程能力和数学推理方面均有提升。该变体拥有约 4.9 亿参数,是一个强大的基座模型,主要设计用于预训练以及随后针对专业化应用的微调。其架构旨在高效地处理多种语言的复杂语言任务。
在架构方面,Qwen2.5-0.5B 是一个稠密的、仅解码器(decoder-only)Transformer 模型。它采用了旋转位置嵌入(RoPE)以实现有效的位置编码,使用 SwiGLU 作为激活函数,并采用 RMSNorm 进行归一化。注意力机制使用了分组查询注意力(GQA),针对此模型规模具体配置为 14 个查询头和 2 个键值头。该模型结构包含 24 层,为其学习语言数据中复杂模式的深度和能力提供了保障。
作为一种因果语言模型,Qwen2.5-0.5B 在经过有监督微调或人类反馈强化学习等后训练环节后,适用于多种下游应用。其能力包括指令遵循、长文本序列生成以及处理 JSON 等结构化数据格式。该模型支持 32,768 个 token 的全上下文长度,而整个 Qwen2.5 系列能够处理高达 128,000 个 token 的上下文,并支持生成多达 8,000 个 token 的输出。它提供多语言支持,涵盖超过 29 种语言。
阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。
没有可用的 Qwen2.5-0.5B 评估基准。
APX AI
在线