ApX 标志ApX 标志

趋近智

Qwen3 Next 80B A3B

活跃参数

80B

上下文长度

66K

模态

Reasoning

架构

Mixture of Experts (MoE)

许可证

Apache-2.0

发布日期

1 Feb 2026

训练数据截止日期

Jun 2025

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

16

键值头

2

注意力头维度

256

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,048

层数

48

FFN 中间层大小(稠密层)

512

多 Token 预测头数

-

分词器

词汇量大小

151,936

混合专家

专家参数总数

79.0B

专家数量

512

活跃专家

10

共享专家数

-

FFN 中间层大小(每专家)

512

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 2k · Context: 66K · Vocab: 151.9kx 48 layersRMSNormPre-AttentionMulti-Head Attention16Q / 2KV headsHead dim: 256+RMSNormPre-FFNSparse MoE FFN (10/512 experts)SwiGLUIntermediate: 512+Final RMSNormOutput Logits

Qwen3 Next 80B A3B

Qwen3-Next-80B-A3B 是由阿里巴巴通义千问团队开发的高容量稀疏混合专家(MoE)基座模型。它属于下一代 Qwen3-Next 系列,专为解决长上下文序列建模的计算需求和大规模参数效率而设计。该模型采用了独特的混合注意力机制,将 Gated DeltaNet 与门控注意力(Gated Attention)相结合,使系统能够在长 Token 序列上保持高性能,同时显著降低了标准 Transformer 架构中常见的二次复杂度。

其技术架构采用了高稀疏度的 MoE 布局,由 48 层组成,隐藏层维度为 2048。虽然模型总参数量达 800 亿,但在推理过程中,其门控机制针对每个 Token 仅激活约 30 亿参数。这种稀疏激活策略结合总计 512 个专家和多 Token 预测(MTP)目标,有助于提升吞吐量并减少每个 Token 的浮点运算数(FLOPs)。该模型还结合了专注于稳定性的架构优化,例如零中心化(zero-centered)和权重衰减层归一化(weight-decayed layer normalization),以确保在 15 万亿 Token 的预训练及后续强化学习阶段实现鲁棒收敛。

Qwen3-Next-80B-A3B 针对复杂推理和智能体(agentic)工作流进行了优化,能够处理 262,144 个 Token 的原生上下文窗口,并可通过 YaRN 等专门的缩放技术扩展至 100 万个 Token 以上。其主要应用场景包括多步逻辑分析、数学证明和代码合成。通过将输出结构化推理轨迹的“Thinking”变体与标准的“Instruct”变体分离,该模型为高效通用交互或深入且透明的问题解决任务提供了专门的路径。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

排名

#132

基准分数排名

0.74

31

研究生级问答

GPQA

0.772

33

Web 开发

WebDev Arena

1402

35

0.50

36

0.68

41

0.58

42

通用文本

Text Arena

1402

51

智能编程

LiveBench Agentic

0.10

53

专业知识

MMLU Pro

0.83

56

排名

排名

#132

编程排名

#77

模型完整性

总分

B+

72 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
32k
64k

所需显存:

推荐 GPU