ApX 标志ApX 标志

趋近智

Qwen3.5-397B-A17B

活跃参数

397B

上下文长度

262K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

24 Feb 2026

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

2

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

10,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

60

FFN 中间层大小(稠密层)

1,024

多 Token 预测头数

1

分词器

词汇量大小

248,320

混合专家

专家参数总数

17.0B

专家数量

512

活跃专家

11

共享专家数

-

FFN 中间层大小(每专家)

1,024

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 262K · Vocab: 248.3kx 60 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 2KV headsHead dim: 256+RMSNormPre-FFNSparse MoE FFN (11/512 experts)SwiGLUIntermediate: 1k+Final RMSNormOutput Logits

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B 是阿里云于 2026 年 2 月发布的规模最大、能力最强的多模态基座模型。该模型拥有 3970 亿参数总量,通过专家混合架构(MoE,包含 512 个专家)实现 170 亿激活参数,并在 MMLU-Pro (87.8%)、GPQA Diamond (88.4%)、SWE-bench Verified (80.0%) 和 Terminal-Bench 2.0 (54.0%) 上均达到了业内顶尖水平。它具备统一的视觉-语言处理能力,支持高达 100 万 token 的超长上下文,并在代码智能体、通用智能体、多模态推理以及涵盖 201 种语言的多语言理解方面表现卓越。

关于 Qwen 3.5

Qwen 3.5 是阿里云于 2026 年 2 月发布的最新一代基础模型系列。它代表了技术的重大飞跃,集成了多模态学习(统一视觉-语言基础)、高效混合架构(带有稀疏混合专家的门控增量网络)、面向百万级智能体环境的可扩展强化学习,以及涵盖 201 种语言的全球语言能力。该模型系列已开源权重,并遵循 Apache 2.0 协议。


其他 Qwen 3.5 模型

评估基准

排名

#42

基准分数排名

0.763

14

通用文本

Text Arena

1445

33

Web 开发

WebDev Arena

1395

38

排名

排名

#42

编程排名

#40

模型完整性

总分

B

66 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
128k
256k

所需显存:

推荐 GPU