ApX 标志ApX 标志

趋近智

Qwen3 235B A22B Thinking

活跃参数

235B

上下文长度

262.144K

模态

Reasoning

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

25 Jul 2025

训练数据截止日期

Jan 2025

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

64

键值头

4

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

5,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

16,384

层数

94

FFN 中间层大小(稠密层)

1,536

多 Token 预测头数

-

分词器

词汇量大小

151,936

混合专家

专家参数总数

22.0B

专家数量

128

活跃专家

8

共享专家数

-

FFN 中间层大小(每专家)

1,536

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 16.4k · Context: 262.1k · Vocab: 151.9kx 94 layersRMSNormPre-AttentionMulti-Head Attention64Q / 4KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (8/128 experts)SwiGLUIntermediate: 1.5k+Final RMSNormOutput Logits

Qwen3 235B A22B Thinking

Qwen3-235B-A22B-Thinking 模型是阿里巴巴开发的 Qwen3 系列中专门用于推理的变体。它专为需要高水平认知处理的任务而设计,例如多步逻辑演绎、复杂的数学证明以及前沿科学分析。作为一种因果语言模型,它与通用模型的不同之处在于,它针对“推理优先”的方法进行了永久性优化。该模型会生成内部思维链(Chain-of-Thought)轨迹,通常封装在系统定义的思维块中,以在问题解决环境中保持透明度并最大化准确性。

在架构上,该模型采用了稀疏混合专家(MoE)Transformer 框架,总共包含 128 个专家。在任何单次推理过程中,路由机制会为每个 Token 动态选择并激活 8 个专家,从而在 2350 亿的总参数库中实现约 220 亿的激活参数。这种设计在提供大规模参数空间表征能力的同时,保持了较小稠密模型的计算特性和延迟表现。系统进一步结合了头比率为 64:4 的分组查询注意力(GQA)机制和 94 个 Transformer 层,平衡了高吞吐量推理与长距离依赖建模。

技术性能方面,该模型支持 262,144 个 Token 的原生上下文窗口,便于处理长篇文档和复杂的智能体(Agentic)工作流。为了确保大规模部署期间的稳定性,模型采用 RMSNorm 进行归一化,并使用 SwiGLU 激活函数。在位置编码方面,它利用旋转位置嵌入(RoPE),使其能够泛化到不同的序列长度。此版本代表了 Qwen3 推理架构的增强版,通过对分步分析数据集的精细训练,提升了其在编程、STEM 和战略规划领域的表现。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

排名

#92

基准分数排名

通用知识

MMLU

0.906

🥈

2

专业知识

MMLU Pro

0.85

20

研究生级问答

GPQA

0.811

21

0.73

33

0.52

33

0.59

38

0.69

39

智能编程

LiveBench Agentic

0.07

55

排名

排名

#92

编程排名

#81

模型完整性

总分

B

66 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
128k
256k

所需显存:

推荐 GPU