ApX 标志ApX 标志

趋近智

Qwen3.5-35B-A3B

活跃参数

35B

上下文长度

262K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

24 Feb 2026

训练数据截止日期

-

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

75.09 GB VRAM

消费级

4x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

262144 个令牌

97.55 GB VRAM

消费级

5x RTX 4090

24GB VRAM

数据中心

2x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 262K · Vocab: 248.3kx 40 layersRMSNormPre-AttentionGrouped-Query Attention16Q / 2KV headsHead dim: 256+RMSNormPre-FFNSparse MoE FFN (9/256 experts)SwiGLUIntermediate: 512+Final RMSNormOutput Logits

评估基准

排名

#101

基准分数排名

通用文本

Text Arena

1396

54

Web 开发

WebDev Arena

1249

89

排名

排名

#101

编程排名

#104

关于 Qwen3.5-35B-A3B

Qwen3.5-35B-A3B 是阿里云于 2026 年 2 月发布的架构高效的多模态基座模型。该模型总参数量为 35B,通过混合专家架构(MoE,包含 256 个专家)实现了 3B 的激活参数量,以极低的计算成本提供了强大的性能表现。其在 MMLU-Pro (85.3%)、GPQA Diamond (84.2%)、SWE-bench Verified (69.2%) 和 Terminal-Bench 2.0 (40.5%) 等评测中表现出色。Qwen3.5-Flash 为其托管 API 版本。该模型具备统一的视觉语言能力、262k 原生上下文长度(可扩展至 1M),并在多模态推理、编程及多语言任务上拥有卓越性能。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

16

键值头

2

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

10,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,048

层数

40

FFN 中间层大小(稠密层)

512

多 Token 预测头数

1

分词器

词汇量大小

248,320

混合专家

专家参数总数

3.0B

专家数量

256

活跃专家

9

共享专家数

-

FFN 中间层大小(每专家)

512

MoE 前的稠密层数

-

模型完整性

总分

B+

72 / 100

关于 Qwen 3.5

Qwen 3.5 是阿里云于 2026 年 2 月发布的最新一代基础模型系列。它代表了技术的重大飞跃,集成了多模态学习(统一视觉-语言基础)、高效混合架构(带有稀疏混合专家的门控增量网络)、面向百万级智能体环境的可扩展强化学习,以及涵盖 201 种语言的全球语言能力。该模型系列已开源权重,并遵循 Apache 2.0 协议。


其他 Qwen 3.5 模型