趋近智
参数
32B
上下文长度
131K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
19 Sept 2024
训练数据截止日期
Mar 2024
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
4x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
131072 个令牌
消费级
5x RTX 4090
24GB VRAM
数据中心
2x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
排名
#60
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.833 | 18 |
排名
#60
编程排名
-
Qwen2.5-32B 模型是阿里云 Qwen 团队开发的 Qwen2.5 系列大语言模型的重要组成部分。该迭代版本在先前模型的基础上进行了改进,为广泛的自然语言处理任务提供了增强的能力。其设计优先考虑了强大的指令遵循能力、有效的长文本生成,以及对包括 JSON 格式在内的结构化数据的复杂理解和生成。该模型在面对各种系统提示词时也表现出更高的稳定性,这有利于开发对话智能体和设定特定的对话条件。此外,它提供了涵盖 29 种以上语言的全面多语言支持,扩展了其在全球环境中的适用性。
在架构上,Qwen2.5-32B 是一个稠密型、仅解码器(decoder-only)的 Transformer 模型。它集成了多个先进组件以优化性能和效率。这些组件包括用于有效位置编码的旋转位置嵌入(RoPE)、作为激活函数以增强非线性的 SwiGLU,以及用于稳定训练和提高收敛性的 RMSNorm。为了优化推理速度和键值(KV)缓存利用率,该模型采用了分组查询注意力(GQA)。其底层的训练过程涉及大规模数据集,数据量扩展至约 18 万亿个 Token,这有助于丰富其知识库,特别是在代码、数学和多种语言等领域。
Qwen2.5-32B 的运行特性在各种复杂任务中展现出卓越的性能。该模型变体擅长处理长上下文,支持高达 131,072 个 Token 的序列。它具备生成长文本的能力,输出长度可达 8,192 个 Token,使其适用于需要详细回答或大规模内容创作的应用场景。虽然基座模型是通用的,但 Qwen2.5 的架构基础也被用于专门的变体(例如针对代码或多模态视觉语言任务优化的版本),彰显了 Qwen2.5 框架的多功能性。
注意力
注意力结构
Grouped-Query Attention
注意力头
96
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
131,072
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
8,192
层数
60
FFN 中间层大小(稠密层)
27,648
多 Token 预测头数
-
分词器
词汇量大小
152,064
阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。
APX AI
在线