ApX 标志ApX 标志

趋近智

Qwen3-235B-A22B

活跃参数

235B

上下文长度

131K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

29 Apr 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

128

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

10,240

层数

100

FFN 中间层大小(稠密层)

1,536

多 Token 预测头数

-

分词器

词汇量大小

151,936

混合专家

专家参数总数

22.0B

专家数量

128

活跃专家

8

共享专家数

-

FFN 中间层大小(每专家)

1,536

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 10.2k · Context: 131K · Vocab: 151.9kx 100 layersRMSNormPre-AttentionGrouped-Query Attention128Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (8/128 experts)SwiGLUIntermediate: 1.5k+Final RMSNormOutput Logits

Qwen3-235B-A22B

Qwen3-235B-A22B 是阿里巴巴云开发的 Qwen3 系列旗舰级混合专家(MoE)大语言模型。其主要用途是处理需要高级推理和全面知识的高性能计算语言学任务。该模型专为处理复杂任务而设计,例如高级代码生成、复杂的数学问题求解以及多步逻辑演绎。同时,它在处理长文档、管理多轮对话和分析企业级数据集的应用中也表现出极高的效率。

Qwen3-235B-A22B 的技术架构采用了集成“思考模式”和“非思考模式”的统一框架。思考模式通过显式展示中间思维过程来促进复杂的多步推理,而非思考模式则提供快速、直接的响应。这种双模式设计能够根据任务复杂度或用户查询进行动态切换,从而在推理过程中实现计算资源的自适应分配。其 MoE 架构的特点是具有稀疏激活机制,采用 top-2 专家路由,每个输入 token 会被动态路由至从总共 128 个专家中选出的两个最相关的专家。尽管总参数量达到 2350 亿,但在推理过程中,针对任何给定输入仅激活 220 亿个参数,从而提升了效率。该模型基于约 36 万亿 token 的预训练语料库构建,涵盖 119 种语言和方言。架构组件包括用于优化注意力机制的组查询注意力(GQA)、用于位置编码的旋转位置嵌入(RoPE),并集成了 Flash Attention 以加速处理。归一化采用 pre-norm RMSNorm,激活函数使用的是 SwiGLU。

Qwen3-235B-A22B 的性能特性突显了其在指令遵循、逻辑推理、全面文本理解以及数学、科学和编程任务方面的卓越能力。其设计优先考虑效率,通过 MoE 架构显著降低了每个推理步骤所需的计算资源,从而减少了能耗和运营成本。该模型支持极长的上下文长度,增强了其在长序列中保持连贯性和检索相关信息的能力。模型权重根据 Apache 2.0 许可证公开发布,旨在促进人工智能社区的广泛采用和进一步研究。这种开放性使其能够部署在各种框架和平台上,包括 Ollama、LMStudio 和 llama.cpp 等本地开发环境。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

排名

#98

基准分数排名

通用知识

MMLU

0.878

7

0.60

15

专业知识

MMLU Pro

0.84

22

Web 开发

WebDev Arena

1422

28

研究生级问答

GPQA

0.775

32

0.70

38

0.58

41

0.68

41

通用文本

Text Arena

1423

43

智能编程

LiveBench Agentic

0.13

52

0.45

53

排名

排名

#98

编程排名

#55

模型完整性

总分

B+

73 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU