Qwen3-235B-A22B

闭源

开放权重

活跃参数

235B

上下文长度

131K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

29 Apr 2025

训练数据截止日期

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

495.44 GB VRAM

消费级

26x RTX 4090

24GB VRAM

数据中心

7x NVIDIA A100

80GB VRAM

Apple Silicon

6x Apple M3 Max

128GB VRAM

131072 个令牌

551.37 GB VRAM

消费级

30x RTX 4090

24GB VRAM

数据中心

8x NVIDIA A100

80GB VRAM

Apple Silicon

6x Apple M3 Max

128GB VRAM

架构图

评估基准

排名

#98

基准	分数	排名
通用知识 MMLU	0.878	7
编程 Aider Coding	0.60	15
专业知识 MMLU Pro	0.84	22
Web 开发 WebDev Arena	1422	28
研究生级问答 GPQA	0.775	32
编程 LiveBench Coding	0.70	38
推理 LiveBench Reasoning	0.58	41
数学 LiveBench Mathematics	0.68	41
通用文本 Text Arena	1423	43
智能编程 LiveBench Agentic	0.13	52
数据分析 LiveBench Data Analysis	0.45	53

排名

#98

编程排名

#55

关于 Qwen3-235B-A22B

Qwen3-235B-A22B 是阿里巴巴云开发的 Qwen3 系列旗舰级混合专家（MoE）大语言模型。其主要用途是处理需要高级推理和全面知识的高性能计算语言学任务。该模型专为处理复杂任务而设计，例如高级代码生成、复杂的数学问题求解以及多步逻辑演绎。同时，它在处理长文档、管理多轮对话和分析企业级数据集的应用中也表现出极高的效率。

Qwen3-235B-A22B 的技术架构采用了集成“思考模式”和“非思考模式”的统一框架。思考模式通过显式展示中间思维过程来促进复杂的多步推理，而非思考模式则提供快速、直接的响应。这种双模式设计能够根据任务复杂度或用户查询进行动态切换，从而在推理过程中实现计算资源的自适应分配。其 MoE 架构的特点是具有稀疏激活机制，采用 top-2 专家路由，每个输入 token 会被动态路由至从总共 128 个专家中选出的两个最相关的专家。尽管总参数量达到 2350 亿，但在推理过程中，针对任何给定输入仅激活 220 亿个参数，从而提升了效率。该模型基于约 36 万亿 token 的预训练语料库构建，涵盖 119 种语言和方言。架构组件包括用于优化注意力机制的组查询注意力（GQA）、用于位置编码的旋转位置嵌入（RoPE），并集成了 Flash Attention 以加速处理。归一化采用 pre-norm RMSNorm，激活函数使用的是 SwiGLU。

Qwen3-235B-A22B 的性能特性突显了其在指令遵循、逻辑推理、全面文本理解以及数学、科学和编程任务方面的卓越能力。其设计优先考虑效率，通过 MoE 架构显著降低了每个推理步骤所需的计算资源，从而减少了能耗和运营成本。该模型支持极长的上下文长度，增强了其在长序列中保持连贯性和检索相关信息的能力。模型权重根据 Apache 2.0 许可证公开发布，旨在促进人工智能社区的广泛采用和进一步研究。这种开放性使其能够部署在各种框架和平台上，包括 Ollama、LMStudio 和 llama.cpp 等本地开发环境。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

128

键值头

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

10,240

层数

100

FFN 中间层大小（稠密层）

1,536

多 Token 预测头数

分词器

词汇量大小

151,936

混合专家

专家参数总数

22.0B

专家数量

128

活跃专家

共享专家数

FFN 中间层大小（每专家）

1,536

MoE 前的稠密层数

模型完整性

总分

B+

73 / 100

上游

21.5 / 30

模型

27.0 / 40

下游

24.5 / 30

资源

官方文档发布说明阅读论文下载权重

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密（dense）和混合专家（MoE）架构，参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统，提供“思考”与“非思考”模式以实现自适应处理，并支持超长上下文窗口，从而显著提升了效率与可扩展性。