趋近智
活跃参数
30B
上下文长度
131.072K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
29 Apr 2025
训练数据截止日期
Mar 2025
专家参数总数
3.0B
专家数量
128
活跃专家
8
注意力结构
Grouped-Query Attention
隐藏维度大小
4096
层数
60
注意力头
96
键值头
8
激活函数
SwigLU
归一化
Layer Normalization
位置嵌入
ROPE
Qwen3-30B-A3B 模型是由阿里巴巴开发的一款混合专家(MoE)语言模型,旨在以更低的计算成本实现高性能推理。该模型拥有 305 亿个总参数,但采用了稀疏激活策略,每个 token 仅激活约 33 亿个参数。这种设计使模型能够保持大型系统广泛的知识储备与能力,同时在延迟和资源占用方面表现得像一个规模小得多的稠密架构。作为 Qwen3 系列中的中端解决方案,它在模型深度与运行效率之间实现了平衡。
在技术架构上,该模型由 48 个 Transformer 层组成,并采用分组查询注意力(GQA)机制(包含 32 个查询头和 4 个键值头),以优化内存带宽和推理速度。其 MoE 组件包含 128 个专家,每个 token 通过路由机制从中选择 8 个专家进行计算。一个显著的架构创新是其混合系统支持两种模式:一种是处理复杂数学和逻辑任务的高推理“思考模式”,另一种是用于精简、通用对话的“非思考模式”。这种灵活性建立在涵盖 119 种语言、高达 36 万亿 token 的海量训练语料库基础之上,并集成了旋转位置嵌入(RoPE)和 SwiGLU 激活函数等先进技术。
Qwen3-30B-A3B 专为多场景部署而设计,在指令遵循、代码生成以及可集成外部工具的复杂智能体(Agent)工作流中表现出色。该模型支持 32,768 个 token 的原生上下文窗口,通过 YaRN(Yet another RoPE N)缩放方法可扩展至 131,072 个 token,在后续迭代中进一步提升到了 256,000 个 token。凭借坚实的多语言基础和优化的专家路由机制,该模型适用于从技术推理到专业环境下创意内容生成的一系列下游应用。
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。
排名
#120
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.88 | 6 |
Web 开发 WebDev Arena | 1384 | 27 |
0.65 | 40 | |
0.45 | 48 | |
0.37 | 49 | |
0.49 | 50 | |
0.02 | 54 |