ApX 标志ApX 标志

趋近智

Qwen2.5-32B

参数

32B

上下文长度

131K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

19 Sept 2024

训练数据截止日期

Mar 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

68.96 GB VRAM

消费级

4x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

131072 个令牌

102.52 GB VRAM

消费级

5x RTX 4090

24GB VRAM

数据中心

2x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 8.2k · Context: 131K · Vocab: 152.1kx 60 layersRMSNormPre-AttentionGrouped-Query Attention96Q / 8KV headsHead dim: 85+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 27.6k+Final RMSNormOutput Logits

评估基准

排名

#60

基准分数排名

通用知识

MMLU

0.833

18

排名

排名

#60

编程排名

-

关于 Qwen2.5-32B

Qwen2.5-32B 模型是阿里云 Qwen 团队开发的 Qwen2.5 系列大语言模型的重要组成部分。该迭代版本在先前模型的基础上进行了改进,为广泛的自然语言处理任务提供了增强的能力。其设计优先考虑了强大的指令遵循能力、有效的长文本生成,以及对包括 JSON 格式在内的结构化数据的复杂理解和生成。该模型在面对各种系统提示词时也表现出更高的稳定性,这有利于开发对话智能体和设定特定的对话条件。此外,它提供了涵盖 29 种以上语言的全面多语言支持,扩展了其在全球环境中的适用性。

在架构上,Qwen2.5-32B 是一个稠密型、仅解码器(decoder-only)的 Transformer 模型。它集成了多个先进组件以优化性能和效率。这些组件包括用于有效位置编码的旋转位置嵌入(RoPE)、作为激活函数以增强非线性的 SwiGLU,以及用于稳定训练和提高收敛性的 RMSNorm。为了优化推理速度和键值(KV)缓存利用率,该模型采用了分组查询注意力(GQA)。其底层的训练过程涉及大规模数据集,数据量扩展至约 18 万亿个 Token,这有助于丰富其知识库,特别是在代码、数学和多种语言等领域。

Qwen2.5-32B 的运行特性在各种复杂任务中展现出卓越的性能。该模型变体擅长处理长上下文,支持高达 131,072 个 Token 的序列。它具备生成长文本的能力,输出长度可达 8,192 个 Token,使其适用于需要详细回答或大规模内容创作的应用场景。虽然基座模型是通用的,但 Qwen2.5 的架构基础也被用于专门的变体(例如针对代码或多模态视觉语言任务优化的版本),彰显了 Qwen2.5 框架的多功能性。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

96

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

131,072

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

8,192

层数

60

FFN 中间层大小(稠密层)

27,648

多 Token 预测头数

-

分词器

词汇量大小

152,064

模型完整性

总分

B

65 / 100

关于 Qwen2.5

阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。


其他 Qwen2.5 模型