ApX 标志ApX 标志

趋近智

Qwen3-32B

参数

32B

上下文长度

131.072K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

29 Apr 2025

训练数据截止日期

Aug 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

96

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

60

FFN 中间层大小(稠密层)

25,600

多 Token 预测头数

-

分词器

词汇量大小

151,936

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 5.1k · Context: 131.1k · Vocab: 151.9kx 60 layersRMSNormPre-AttentionGrouped-Query Attention96Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 25.6k+Final RMSNormOutput Logits

Qwen3-32B

Qwen3-32B 是由阿里巴巴开发的稠密型大语言模型,是 Qwen3 系列中首屈一指的稠密变体。该模型被设计为一个兼顾通用交互和复杂问题解决的统一框架,并引入了混合推理机制。这种架构允许模型在“思考模式”(以针对数学和逻辑任务的生成式思维链处理为特征)与“非思考模式”(针对高吞吐、响应式对话进行了优化)之间进行无缝切换。这种双模式能力通过灵活的切换系统实现,使用户能够根据特定查询的需求调整模型的计算深度。

在技术层面,该模型基于 64 层 Transformer 架构构建,拥有 328 亿个参数。它利用分组查询注意力(GQA)机制,配置 64 个查询头和 8 个键值头,以实现推理速度与表征能力之间的最佳平衡。在此版本中,QK-Norm 的集成以及 QKV 偏置的移除有助于增强训练稳定性。在序列建模方面,该架构采用基频为 1,000,000 的旋转位置嵌入(RoPE),支持 32,768 个标记的原生上下文长度,并可通过 YaRN 插值扩展至 131,072 个标记。模型的内部激活采用 SwiGLU 函数,并采用前置 RMSNorm 配置进行归一化处理。

Qwen3-32B 专为多样化的运行环境而设计,支持 100 多种语言和方言。其训练流程遵循四阶段过程,包括长思维链冷启动和基于推理的强化学习,这为模型处理复杂的智能体(Agent)任务和工具集成奠定了基础。该模型在需要多轮对话、复杂指令遵循和自主工具使用的场景中表现尤为出色,为开发者在各种全球环境下构建集成 AI 系统提供了多功能的基石。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

排名

#130

基准分数排名

0.457

26

0.40

29

Web 开发

WebDev Arena

1347

39

0.67

42

0.48

44

0.66

46

0.47

47

智能编程

LiveBench Agentic

0.03

57

排名

排名

#130

编程排名

#104

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU

Qwen3-32B:规格和 GPU 显存要求