趋近智
活跃参数
235B
上下文长度
262.144K
模态
Reasoning
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
25 Jul 2025
训练数据截止日期
Jan 2025
专家参数总数
22.0B
专家数量
128
活跃专家
8
注意力结构
Multi-Head Attention
隐藏维度大小
16384
层数
94
注意力头
64
键值头
4
激活函数
SwigLU
归一化
RMS Normalization
位置嵌入
Absolute Position Embedding
Qwen3-235B-A22B-Thinking 模型是阿里巴巴开发的 Qwen3 系列中专门用于推理的变体。它专为需要高水平认知处理的任务而设计,例如多步逻辑演绎、复杂的数学证明以及前沿科学分析。作为一种因果语言模型,它与通用模型的不同之处在于,它针对“推理优先”的方法进行了永久性优化。该模型会生成内部思维链(Chain-of-Thought)轨迹,通常封装在系统定义的思维块中,以在问题解决环境中保持透明度并最大化准确性。
在架构上,该模型采用了稀疏混合专家(MoE)Transformer 框架,总共包含 128 个专家。在任何单次推理过程中,路由机制会为每个 Token 动态选择并激活 8 个专家,从而在 2350 亿的总参数库中实现约 220 亿的激活参数。这种设计在提供大规模参数空间表征能力的同时,保持了较小稠密模型的计算特性和延迟表现。系统进一步结合了头比率为 64:4 的分组查询注意力(GQA)机制和 94 个 Transformer 层,平衡了高吞吐量推理与长距离依赖建模。
技术性能方面,该模型支持 262,144 个 Token 的原生上下文窗口,便于处理长篇文档和复杂的智能体(Agentic)工作流。为了确保大规模部署期间的稳定性,模型采用 RMSNorm 进行归一化,并使用 SwiGLU 激活函数。在位置编码方面,它利用旋转位置嵌入(RoPE),使其能够泛化到不同的序列长度。此版本代表了 Qwen3 推理架构的增强版,通过对分步分析数据集的精细训练,提升了其在编程、STEM 和战略规划领域的表现。
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。