Qwen3 235B A22B Thinking

闭源

开放权重

活跃参数

235B

上下文长度

262.144K

模态

Reasoning

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

25 Jul 2025

训练数据截止日期

Jan 2025

技术规格

专家参数总数

22.0B

专家数量

128

活跃专家

注意力结构

Multi-Head Attention

隐藏维度大小

16384

层数

注意力头

键值头

激活函数

SwigLU

归一化

RMS Normalization

位置嵌入

Absolute Position Embedding

Qwen3 235B A22B Thinking

Qwen3-235B-A22B-Thinking 模型是阿里巴巴开发的 Qwen3 系列中专门用于推理的变体。它专为需要高水平认知处理的任务而设计，例如多步逻辑演绎、复杂的数学证明以及前沿科学分析。作为一种因果语言模型，它与通用模型的不同之处在于，它针对“推理优先”的方法进行了永久性优化。该模型会生成内部思维链（Chain-of-Thought）轨迹，通常封装在系统定义的思维块中，以在问题解决环境中保持透明度并最大化准确性。

在架构上，该模型采用了稀疏混合专家（MoE）Transformer 框架，总共包含 128 个专家。在任何单次推理过程中，路由机制会为每个 Token 动态选择并激活 8 个专家，从而在 2350 亿的总参数库中实现约 220 亿的激活参数。这种设计在提供大规模参数空间表征能力的同时，保持了较小稠密模型的计算特性和延迟表现。系统进一步结合了头比率为 64:4 的分组查询注意力（GQA）机制和 94 个 Transformer 层，平衡了高吞吐量推理与长距离依赖建模。

技术性能方面，该模型支持 262,144 个 Token 的原生上下文窗口，便于处理长篇文档和复杂的智能体（Agentic）工作流。为了确保大规模部署期间的稳定性，模型采用 RMSNorm 进行归一化，并使用 SwiGLU 激活函数。在位置编码方面，它利用旋转位置嵌入（RoPE），使其能够泛化到不同的序列长度。此版本代表了 Qwen3 推理架构的增强版，通过对分步分析数据集的精细训练，提升了其在编程、STEM 和战略规划领域的表现。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密（dense）和混合专家（MoE）架构，参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统，提供“思考”与“非思考”模式以实现自适应处理，并支持超长上下文窗口，从而显著提升了效率与可扩展性。

其他 Qwen 3 模型

评估基准

排名

#101

基准	分数	排名
通用知识 MMLU	0.91	🥇 1
研究生级问答 GPQA	0.81	20
数学 LiveBench Mathematics	0.73	29
数据分析 LiveBench Data Analysis	0.52	30
推理 LiveBench Reasoning	0.59	32
编程 LiveBench Coding	0.69	36
专业知识 MMLU Pro	0.84	49
智能编程 LiveBench Agentic	0.07	51

排名

#101

编程排名

#78

模型透明度

总分

66 / 100

上游

20.0 / 30

模型

24.0 / 40

下游

22.0 / 30

GPU 要求

完整计算器

量化

选择模型权重的量化方法

上下文大小：1024 个令牌

128k

256k

所需显存:

资源

官方文档发布说明阅读论文下载权重源代码

Qwen3 235B A22B Thinking

技术规格

Qwen3 235B A22B Thinking

关于 Qwen 3

其他 Qwen 3 模型

评估基准

排名

模型透明度

GPU 要求

所需显存:

推荐 GPU

资源