ApX 标志ApX 标志

趋近智

Qwen2.5-0.5B

参数

500M

上下文长度

32.768K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

19 Sept 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

16

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

32,768

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

768

层数

24

FFN 中间层大小(稠密层)

4,864

多 Token 预测头数

-

分词器

词汇量大小

151,936

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 768 · Context: 32.8k · Vocab: 151.9kx 24 layersRMSNormPre-AttentionGrouped-Query Attention16Q / 8KV headsHead dim: 48+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 4.9k+Final RMSNormOutput Logits

Qwen2.5-0.5B

Qwen2.5-0.5B 是由阿里云 Qwen 团队开发的基础大语言模型。它是 Qwen2.5 系列的一部分,该系列代表了语言模型能力的进步,在知识获取、编程能力和数学推理方面均有提升。该变体拥有约 4.9 亿参数,是一个强大的基座模型,主要设计用于预训练以及随后针对专业化应用的微调。其架构旨在高效地处理多种语言的复杂语言任务。

在架构方面,Qwen2.5-0.5B 是一个稠密的、仅解码器(decoder-only)Transformer 模型。它采用了旋转位置嵌入(RoPE)以实现有效的位置编码,使用 SwiGLU 作为激活函数,并采用 RMSNorm 进行归一化。注意力机制使用了分组查询注意力(GQA),针对此模型规模具体配置为 14 个查询头和 2 个键值头。该模型结构包含 24 层,为其学习语言数据中复杂模式的深度和能力提供了保障。

作为一种因果语言模型,Qwen2.5-0.5B 在经过有监督微调或人类反馈强化学习等后训练环节后,适用于多种下游应用。其能力包括指令遵循、长文本序列生成以及处理 JSON 等结构化数据格式。该模型支持 32,768 个 token 的全上下文长度,而整个 Qwen2.5 系列能够处理高达 128,000 个 token 的上下文,并支持生成多达 8,000 个 token 的输出。它提供多语言支持,涵盖超过 29 种语言。

关于 Qwen2.5

阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。


其他 Qwen2.5 模型

评估基准

没有可用的 Qwen2.5-0.5B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU