趋近智
参数
32B
上下文长度
131.072K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
29 Apr 2025
训练数据截止日期
Aug 2024
注意力
注意力结构
Grouped-Query Attention
注意力头
96
键值头
8
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
5,120
层数
60
FFN 中间层大小(稠密层)
25,600
多 Token 预测头数
-
分词器
词汇量大小
151,936
Qwen3-32B 是由阿里巴巴开发的稠密型大语言模型,是 Qwen3 系列中首屈一指的稠密变体。该模型被设计为一个兼顾通用交互和复杂问题解决的统一框架,并引入了混合推理机制。这种架构允许模型在“思考模式”(以针对数学和逻辑任务的生成式思维链处理为特征)与“非思考模式”(针对高吞吐、响应式对话进行了优化)之间进行无缝切换。这种双模式能力通过灵活的切换系统实现,使用户能够根据特定查询的需求调整模型的计算深度。
在技术层面,该模型基于 64 层 Transformer 架构构建,拥有 328 亿个参数。它利用分组查询注意力(GQA)机制,配置 64 个查询头和 8 个键值头,以实现推理速度与表征能力之间的最佳平衡。在此版本中,QK-Norm 的集成以及 QKV 偏置的移除有助于增强训练稳定性。在序列建模方面,该架构采用基频为 1,000,000 的旋转位置嵌入(RoPE),支持 32,768 个标记的原生上下文长度,并可通过 YaRN 插值扩展至 131,072 个标记。模型的内部激活采用 SwiGLU 函数,并采用前置 RMSNorm 配置进行归一化处理。
Qwen3-32B 专为多样化的运行环境而设计,支持 100 多种语言和方言。其训练流程遵循四阶段过程,包括长思维链冷启动和基于推理的强化学习,这为模型处理复杂的智能体(Agent)任务和工具集成奠定了基础。该模型在需要多轮对话、复杂指令遵循和自主工具使用的场景中表现尤为出色,为开发者在各种全球环境下构建集成 AI 系统提供了多功能的基石。
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。
排名
#130
| 基准 | 分数 | 排名 |
|---|---|---|
StackUnseen ProLLM Stack Unseen | 0.457 | 26 |
0.40 | 29 | |
Web 开发 WebDev Arena | 1347 | 39 |
0.67 | 42 | |
0.48 | 44 | |
0.66 | 46 | |
0.47 | 47 | |
0.03 | 57 |
APX AI
在线