ApX 标志ApX 标志

趋近智

Qwen3-32B

参数

32B

上下文长度

131K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

29 Apr 2025

训练数据截止日期

Aug 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

96

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

60

FFN 中间层大小(稠密层)

25,600

多 Token 预测头数

-

分词器

词汇量大小

151,936

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 5.1k · Context: 131K · Vocab: 151.9kx 60 layersRMSNormPre-AttentionGrouped-Query Attention96Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 25.6k+Final RMSNormOutput Logits

Qwen3-32B

Qwen3-32B 是由阿里巴巴开发的稠密型大语言模型,是 Qwen3 系列中首屈一指的稠密变体。该模型被设计为一个兼顾通用交互和复杂问题解决的统一框架,并引入了混合推理机制。这种架构允许模型在“思考模式”(以针对数学和逻辑任务的生成式思维链处理为特征)与“非思考模式”(针对高吞吐、响应式对话进行了优化)之间进行无缝切换。这种双模式能力通过灵活的切换系统实现,使用户能够根据特定查询的需求调整模型的计算深度。

在技术层面,该模型基于 64 层 Transformer 架构构建,拥有 328 亿个参数。它利用分组查询注意力(GQA)机制,配置 64 个查询头和 8 个键值头,以实现推理速度与表征能力之间的最佳平衡。在此版本中,QK-Norm 的集成以及 QKV 偏置的移除有助于增强训练稳定性。在序列建模方面,该架构采用基频为 1,000,000 的旋转位置嵌入(RoPE),支持 32,768 个标记的原生上下文长度,并可通过 YaRN 插值扩展至 131,072 个标记。模型的内部激活采用 SwiGLU 函数,并采用前置 RMSNorm 配置进行归一化处理。

Qwen3-32B 专为多样化的运行环境而设计,支持 100 多种语言和方言。其训练流程遵循四阶段过程,包括长思维链冷启动和基于推理的强化学习,这为模型处理复杂的智能体(Agent)任务和工具集成奠定了基础。该模型在需要多轮对话、复杂指令遵循和自主工具使用的场景中表现尤为出色,为开发者在各种全球环境下构建集成 AI 系统提供了多功能的基石。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

排名

#134

基准分数排名

0.457

26

0.40

29

0.67

42

0.48

45

0.66

47

0.47

47

智能编程

LiveBench Agentic

0.03

57

Web 开发

WebDev Arena

1347

59

通用文本

Text Arena

1347

69

排名

排名

#134

编程排名

#118

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU

Qwen3-32B:规格和 GPU 显存要求