Qwen3.6 35B A3B

开源

开放权重

活跃参数

35B

上下文长度

262K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

15 Apr 2026

训练数据截止日期

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

75.09 GB VRAM

消费级

4x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

262144 个令牌

97.55 GB VRAM

消费级

5x RTX 4090

24GB VRAM

数据中心

2x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

排名

#43

基准	分数	排名
推理 LiveBench Reasoning	0.76	23

排名

#43

编程排名

关于 Qwen3.6 35B A3B

Qwen3.6-35B-A3B 是阿里巴巴开源的混合专家（MoE）模型，总参数量为 35B，每个 token 的激活参数量仅为 3B。该模型采用了一种结合了门控 DeltaNet 线性注意力、标准门控注意力以及稀疏 MoE（包含 256 个专家，其中 8 个路由专家 + 1 个共享专家处于激活状态）的创新架构，在智能体编程任务中表现卓越，性能足以媲美规模大得多的稠密模型。它在 SWE-bench Verified 上取得了 73.4% 的成绩，在 Terminal-Bench 2.0 上为 51.5%，在 AIME 2026 上为 92.6%。模型原生支持多模态（文本、图像、视频），原生支持 262K 上下文（通过 YaRN 可扩展至 1M），并针对智能体任务保留了思考过程（thinking preservation），采用多 Token 预测（Multi-Token Prediction）技术训练。该模型可通过阿里云百炼（Model Studio）API 以 qwen3.6-flash 的名称调用，于 2026 年 4 月 15 日根据 Apache 2.0 协议发布。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

键值头

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

10,000,000

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

Yes

线性注意力比例

75.0%

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,048

层数

FFN 中间层大小（稠密层）

512

多 Token 预测头数

分词器

词汇量大小

248,320

混合专家

专家参数总数

3.0B

专家数量

256

活跃专家

共享专家数

FFN 中间层大小（每专家）

512

MoE 前的稠密层数

模型完整性

总分

B+

70 / 100

上游

20.0 / 30

模型

25.5 / 40

下游

24.5 / 30

资源

官方文档下载权重

关于 Qwen 3.6

Qwen 3.6 is Alibaba's latest generation of hybrid sparse Mixture-of-Experts (MoE) models featuring a novel architecture that combines Gated DeltaNet linear attention layers with standard Gated Attention layers and MoE feed-forward networks. The family delivers substantial improvements in agentic coding, multimodal perception, and reasoning, with native support for thinking and non-thinking modes, thinking preservation across turns, and a 262K native context window.

其他 Qwen 3.6 模型

没有相关模型