ApX 标志ApX 标志

趋近智

Qwen3-30B-A3B

活跃参数

30B

上下文长度

131.072K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

29 Apr 2025

训练数据截止日期

Mar 2025

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

96

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

Layer Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

60

FFN 中间层大小(稠密层)

768

多 Token 预测头数

-

分词器

词汇量大小

151,936

混合专家

专家参数总数

3.0B

专家数量

128

活跃专家

8

共享专家数

-

FFN 中间层大小(每专家)

768

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 131.1k · Vocab: 151.9kx 60 layersLayerNormPre-AttentionGrouped-Query Attention96Q / 8KV headsHead dim: 128+LayerNormPre-FFNSparse MoE FFN (8/128 experts)SwiGLUIntermediate: 768+Final LayerNormOutput Logits

Qwen3-30B-A3B

Qwen3-30B-A3B 模型是由阿里巴巴开发的一款混合专家(MoE)语言模型,旨在以更低的计算成本实现高性能推理。该模型拥有 305 亿个总参数,但采用了稀疏激活策略,每个 token 仅激活约 33 亿个参数。这种设计使模型能够保持大型系统广泛的知识储备与能力,同时在延迟和资源占用方面表现得像一个规模小得多的稠密架构。作为 Qwen3 系列中的中端解决方案,它在模型深度与运行效率之间实现了平衡。

在技术架构上,该模型由 48 个 Transformer 层组成,并采用分组查询注意力(GQA)机制(包含 32 个查询头和 4 个键值头),以优化内存带宽和推理速度。其 MoE 组件包含 128 个专家,每个 token 通过路由机制从中选择 8 个专家进行计算。一个显著的架构创新是其混合系统支持两种模式:一种是处理复杂数学和逻辑任务的高推理“思考模式”,另一种是用于精简、通用对话的“非思考模式”。这种灵活性建立在涵盖 119 种语言、高达 36 万亿 token 的海量训练语料库基础之上,并集成了旋转位置嵌入(RoPE)和 SwiGLU 激活函数等先进技术。

Qwen3-30B-A3B 专为多场景部署而设计,在指令遵循、代码生成以及可集成外部工具的复杂智能体(Agent)工作流中表现出色。该模型支持 32,768 个 token 的原生上下文窗口,通过 YaRN(Yet another RoPE N)缩放方法可扩展至 131,072 个 token,在后续迭代中进一步提升到了 256,000 个 token。凭借坚实的多语言基础和优化的专家路由机制,该模型适用于从技术推理到专业环境下创意内容生成的一系列下游应用。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

排名

#135

基准分数排名

通用知识

MMLU

0.876

9

Web 开发

WebDev Arena

1384

30

0.65

45

0.45

52

0.49

54

0.37

56

智能编程

LiveBench Agentic

0.02

58

排名

排名

#135

编程排名

#126

模型完整性

总分

B+

75 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU

Qwen3-30B-A3B:规格和 GPU 显存要求