趋近智
参数
72B
上下文长度
131.072K
模态
Text
架构
Dense
许可证
Qwen License
发布日期
19 Sept 2024
训练数据截止日期
Jan 2025
注意力
注意力结构
Grouped-Query Attention
注意力头
128
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
12,288
层数
80
FFN 中间层大小(稠密层)
29,568
多 Token 预测头数
-
分词器
词汇量大小
152,064
Qwen2.5-72B 是阿里巴巴开发的 Qwen2.5 系列大语言模型的核心组件。该模型基于 Transformer 架构构建,是一种因果语言模型(causal language model)。其设计采用了旋转位置嵌入(RoPE)、SwiGLU 激活函数和 RMSNorm 归一化技术,并辅以包含 QKV 偏置的注意力机制。这些架构选择为通用语言处理任务提供了坚实的基础。
与前代模型 Qwen2 相比,Qwen2.5-72B 在多方面实现了技术进步。它在处理复杂知识方面表现出增强的能力,尤其在代码编写和数学等领域表现卓越。该模型还提升了指令遵循能力,使其能更好地适应多样化的用户提示词和条件场景。其设计专注于需要高保真度输出生成的实际应用。
该模型专为大规模文本处理而设计,支持高达 131,072 个 token 的上下文长度,并可生成长达 8,192 个 token 的输出。它精通长文本内容生成,能够理解表格等结构化数据格式,并能产出如 JSON 等结构化输出。此外,Qwen2.5-72B 提供超过 29 种语言的多语言支持,适用于广泛的内容生成、代码辅助以及聊天机器人和虚拟助手等高级人工智能应用。
阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。
排名
#119
| 基准 | 分数 | 排名 |
|---|---|---|
QA 助手 ProLLM QA Assistant | 0.935 | 12 |
0.742 | 19 | |
专业知识 MMLU Pro | 0.71 | 62 |
APX AI
在线