趋近智
活跃参数
35B
上下文长度
262K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
15 Apr 2026
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
16
键值头
2
注意力头维度
256
位置嵌入
ROPE
RoPE Theta
10,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
2,048
层数
40
FFN 中间层大小(稠密层)
512
多 Token 预测头数
1
分词器
词汇量大小
248,320
混合专家
专家参数总数
3.0B
专家数量
256
活跃专家
9
共享专家数
-
FFN 中间层大小(每专家)
512
MoE 前的稠密层数
-
Qwen3.6-35B-A3B 是阿里巴巴开源的混合专家(MoE)模型,总参数量为 35B,每个 token 的激活参数量仅为 3B。该模型采用了一种结合了门控 DeltaNet 线性注意力、标准门控注意力以及稀疏 MoE(包含 256 个专家,其中 8 个路由专家 + 1 个共享专家处于激活状态)的创新架构,在智能体编程任务中表现卓越,性能足以媲美规模大得多的稠密模型。它在 SWE-bench Verified 上取得了 73.4% 的成绩,在 Terminal-Bench 2.0 上为 51.5%,在 AIME 2026 上为 92.6%。模型原生支持多模态(文本、图像、视频),原生支持 262K 上下文(通过 YaRN 可扩展至 1M),并针对智能体任务保留了思考过程(thinking preservation),采用多 Token 预测(Multi-Token Prediction)技术训练。该模型可通过阿里云百炼(Model Studio)API 以 qwen3.6-flash 的名称调用,于 2026 年 4 月 15 日根据 Apache 2.0 协议发布。
Qwen 3.6 is Alibaba's latest generation of hybrid sparse Mixture-of-Experts (MoE) models featuring a novel architecture that combines Gated DeltaNet linear attention layers with standard Gated Attention layers and MoE feed-forward networks. The family delivers substantial improvements in agentic coding, multimodal perception, and reasoning, with native support for thinking and non-thinking modes, thinking preservation across turns, and a 262K native context window.
排名
#43
| 基准 | 分数 | 排名 |
|---|---|---|
0.76 | 23 |
APX AI
在线