ApX 标志ApX 标志

趋近智

Qwen3.6 35B A3B

活跃参数

35B

上下文长度

262K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

15 Apr 2026

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

16

键值头

2

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

10,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,048

层数

40

FFN 中间层大小(稠密层)

512

多 Token 预测头数

1

分词器

词汇量大小

248,320

混合专家

专家参数总数

3.0B

专家数量

256

活跃专家

9

共享专家数

-

FFN 中间层大小(每专家)

512

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 262K · Vocab: 248.3kx 40 layersRMSNormPre-AttentionGrouped-Query Attention16Q / 2KV headsHead dim: 256+RMSNormPre-FFNSparse MoE FFN (9/256 experts)SwiGLUIntermediate: 512+Final RMSNormOutput Logits

Qwen3.6 35B A3B

Qwen3.6-35B-A3B 是阿里巴巴开源的混合专家(MoE)模型,总参数量为 35B,每个 token 的激活参数量仅为 3B。该模型采用了一种结合了门控 DeltaNet 线性注意力、标准门控注意力以及稀疏 MoE(包含 256 个专家,其中 8 个路由专家 + 1 个共享专家处于激活状态)的创新架构,在智能体编程任务中表现卓越,性能足以媲美规模大得多的稠密模型。它在 SWE-bench Verified 上取得了 73.4% 的成绩,在 Terminal-Bench 2.0 上为 51.5%,在 AIME 2026 上为 92.6%。模型原生支持多模态(文本、图像、视频),原生支持 262K 上下文(通过 YaRN 可扩展至 1M),并针对智能体任务保留了思考过程(thinking preservation),采用多 Token 预测(Multi-Token Prediction)技术训练。该模型可通过阿里云百炼(Model Studio)API 以 qwen3.6-flash 的名称调用,于 2026 年 4 月 15 日根据 Apache 2.0 协议发布。

关于 Qwen 3.6

Qwen 3.6 is Alibaba's latest generation of hybrid sparse Mixture-of-Experts (MoE) models featuring a novel architecture that combines Gated DeltaNet linear attention layers with standard Gated Attention layers and MoE feed-forward networks. The family delivers substantial improvements in agentic coding, multimodal perception, and reasoning, with native support for thinking and non-thinking modes, thinking preservation across turns, and a 262K native context window.


其他 Qwen 3.6 模型
  • 没有相关模型

评估基准

排名

#43

基准分数排名

0.76

23

排名

排名

#43

编程排名

-

模型完整性

总分

B+

70 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
128k
256k

所需显存:

推荐 GPU