趋近智
活跃参数
80B
上下文长度
66K
模态
Reasoning
架构
Mixture of Experts (MoE)
许可证
Apache-2.0
发布日期
1 Feb 2026
训练数据截止日期
Jun 2025
注意力
注意力结构
Multi-Head Attention
注意力头
16
键值头
2
注意力头维度
256
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
2,048
层数
48
FFN 中间层大小(稠密层)
512
多 Token 预测头数
-
分词器
词汇量大小
151,936
混合专家
专家参数总数
79.0B
专家数量
512
活跃专家
10
共享专家数
-
FFN 中间层大小(每专家)
512
MoE 前的稠密层数
-
Qwen3-Next-80B-A3B 是由阿里巴巴通义千问团队开发的高容量稀疏混合专家(MoE)基座模型。它属于下一代 Qwen3-Next 系列,专为解决长上下文序列建模的计算需求和大规模参数效率而设计。该模型采用了独特的混合注意力机制,将 Gated DeltaNet 与门控注意力(Gated Attention)相结合,使系统能够在长 Token 序列上保持高性能,同时显著降低了标准 Transformer 架构中常见的二次复杂度。
其技术架构采用了高稀疏度的 MoE 布局,由 48 层组成,隐藏层维度为 2048。虽然模型总参数量达 800 亿,但在推理过程中,其门控机制针对每个 Token 仅激活约 30 亿参数。这种稀疏激活策略结合总计 512 个专家和多 Token 预测(MTP)目标,有助于提升吞吐量并减少每个 Token 的浮点运算数(FLOPs)。该模型还结合了专注于稳定性的架构优化,例如零中心化(zero-centered)和权重衰减层归一化(weight-decayed layer normalization),以确保在 15 万亿 Token 的预训练及后续强化学习阶段实现鲁棒收敛。
Qwen3-Next-80B-A3B 针对复杂推理和智能体(agentic)工作流进行了优化,能够处理 262,144 个 Token 的原生上下文窗口,并可通过 YaRN 等专门的缩放技术扩展至 100 万个 Token 以上。其主要应用场景包括多步逻辑分析、数学证明和代码合成。通过将输出结构化推理轨迹的“Thinking”变体与标准的“Instruct”变体分离,该模型为高效通用交互或深入且透明的问题解决任务提供了专门的路径。
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。
排名
#132
| 基准 | 分数 | 排名 |
|---|---|---|
0.74 | 31 | |
研究生级问答 GPQA | 0.772 | 33 |
Web 开发 WebDev Arena | 1402 | 35 |
0.50 | 36 | |
0.68 | 41 | |
0.58 | 42 | |
通用文本 Text Arena | 1402 | 51 |
0.10 | 53 | |
专业知识 MMLU Pro | 0.83 | 56 |
APX AI
在线