ApX 标志ApX 标志

趋近智

Qwen3 235B A22B Thinking

活跃参数

235B

上下文长度

262.144K

模态

Reasoning

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

25 Jul 2025

训练数据截止日期

Jan 2025

技术规格

专家参数总数

22.0B

专家数量

128

活跃专家

8

注意力结构

Multi-Head Attention

隐藏维度大小

16384

层数

94

注意力头

64

键值头

4

激活函数

SwigLU

归一化

RMS Normalization

位置嵌入

Absolute Position Embedding

Qwen3 235B A22B Thinking

Qwen3-235B-A22B-Thinking 模型是阿里巴巴开发的 Qwen3 系列中专门用于推理的变体。它专为需要高水平认知处理的任务而设计,例如多步逻辑演绎、复杂的数学证明以及前沿科学分析。作为一种因果语言模型,它与通用模型的不同之处在于,它针对“推理优先”的方法进行了永久性优化。该模型会生成内部思维链(Chain-of-Thought)轨迹,通常封装在系统定义的思维块中,以在问题解决环境中保持透明度并最大化准确性。

在架构上,该模型采用了稀疏混合专家(MoE)Transformer 框架,总共包含 128 个专家。在任何单次推理过程中,路由机制会为每个 Token 动态选择并激活 8 个专家,从而在 2350 亿的总参数库中实现约 220 亿的激活参数。这种设计在提供大规模参数空间表征能力的同时,保持了较小稠密模型的计算特性和延迟表现。系统进一步结合了头比率为 64:4 的分组查询注意力(GQA)机制和 94 个 Transformer 层,平衡了高吞吐量推理与长距离依赖建模。

技术性能方面,该模型支持 262,144 个 Token 的原生上下文窗口,便于处理长篇文档和复杂的智能体(Agentic)工作流。为了确保大规模部署期间的稳定性,模型采用 RMSNorm 进行归一化,并使用 SwiGLU 激活函数。在位置编码方面,它利用旋转位置嵌入(RoPE),使其能够泛化到不同的序列长度。此版本代表了 Qwen3 推理架构的增强版,通过对分步分析数据集的精细训练,提升了其在编程、STEM 和战略规划领域的表现。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

排名

#101

基准分数排名

通用知识

MMLU

0.91

🥇

1

研究生级问答

GPQA

0.81

20

0.73

29

0.52

30

0.59

32

0.69

36

专业知识

MMLU Pro

0.84

49

智能编程

LiveBench Agentic

0.07

51

排名

排名

#101

编程排名

#78

模型透明度

总分

B

66 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
128k
256k

所需显存:

推荐 GPU