趋近智
活跃参数
235B
上下文长度
131.072K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
29 Apr 2025
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
128
键值头
8
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
10,240
层数
100
FFN 中间层大小(稠密层)
1,536
多 Token 预测头数
-
分词器
词汇量大小
151,936
混合专家
专家参数总数
22.0B
专家数量
128
活跃专家
8
共享专家数
-
FFN 中间层大小(每专家)
1,536
MoE 前的稠密层数
-
Qwen3-235B-A22B 是阿里巴巴云开发的 Qwen3 系列旗舰级混合专家(MoE)大语言模型。其主要用途是处理需要高级推理和全面知识的高性能计算语言学任务。该模型专为处理复杂任务而设计,例如高级代码生成、复杂的数学问题求解以及多步逻辑演绎。同时,它在处理长文档、管理多轮对话和分析企业级数据集的应用中也表现出极高的效率。
Qwen3-235B-A22B 的技术架构采用了集成“思考模式”和“非思考模式”的统一框架。思考模式通过显式展示中间思维过程来促进复杂的多步推理,而非思考模式则提供快速、直接的响应。这种双模式设计能够根据任务复杂度或用户查询进行动态切换,从而在推理过程中实现计算资源的自适应分配。其 MoE 架构的特点是具有稀疏激活机制,采用 top-2 专家路由,每个输入 token 会被动态路由至从总共 128 个专家中选出的两个最相关的专家。尽管总参数量达到 2350 亿,但在推理过程中,针对任何给定输入仅激活 220 亿个参数,从而提升了效率。该模型基于约 36 万亿 token 的预训练语料库构建,涵盖 119 种语言和方言。架构组件包括用于优化注意力机制的组查询注意力(GQA)、用于位置编码的旋转位置嵌入(RoPE),并集成了 Flash Attention 以加速处理。归一化采用 pre-norm RMSNorm,激活函数使用的是 SwiGLU。
Qwen3-235B-A22B 的性能特性突显了其在指令遵循、逻辑推理、全面文本理解以及数学、科学和编程任务方面的卓越能力。其设计优先考虑效率,通过 MoE 架构显著降低了每个推理步骤所需的计算资源,从而减少了能耗和运营成本。该模型支持极长的上下文长度,增强了其在长序列中保持连贯性和检索相关信息的能力。模型权重根据 Apache 2.0 许可证公开发布,旨在促进人工智能社区的广泛采用和进一步研究。这种开放性使其能够部署在各种框架和平台上,包括 Ollama、LMStudio 和 llama.cpp 等本地开发环境。
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。
排名
#95
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.878 | 7 |
0.60 | 15 | |
Web 开发 WebDev Arena | 1422 | 16 |
专业知识 MMLU Pro | 0.84 | 22 |
研究生级问答 GPQA | 0.775 | 32 |
0.70 | 37 | |
0.58 | 40 | |
0.68 | 41 | |
0.13 | 52 | |
0.45 | 53 |
APX AI
在线