趋近智
活跃参数
397B
上下文长度
262K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
24 Feb 2026
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
2
注意力头维度
256
位置嵌入
ROPE
RoPE Theta
10,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
60
FFN 中间层大小(稠密层)
1,024
多 Token 预测头数
1
分词器
词汇量大小
248,320
混合专家
专家参数总数
17.0B
专家数量
512
活跃专家
11
共享专家数
-
FFN 中间层大小(每专家)
1,024
MoE 前的稠密层数
-
Qwen3.5-397B-A17B 是阿里云于 2026 年 2 月发布的规模最大、能力最强的多模态基座模型。该模型拥有 3970 亿参数总量,通过专家混合架构(MoE,包含 512 个专家)实现 170 亿激活参数,并在 MMLU-Pro (87.8%)、GPQA Diamond (88.4%)、SWE-bench Verified (80.0%) 和 Terminal-Bench 2.0 (54.0%) 上均达到了业内顶尖水平。它具备统一的视觉-语言处理能力,支持高达 100 万 token 的超长上下文,并在代码智能体、通用智能体、多模态推理以及涵盖 201 种语言的多语言理解方面表现卓越。
Qwen 3.5 是阿里云于 2026 年 2 月发布的最新一代基础模型系列。它代表了技术的重大飞跃,集成了多模态学习(统一视觉-语言基础)、高效混合架构(带有稀疏混合专家的门控增量网络)、面向百万级智能体环境的可扩展强化学习,以及涵盖 201 种语言的全球语言能力。该模型系列已开源权重,并遵循 Apache 2.0 协议。
排名
#42
| 基准 | 分数 | 排名 |
|---|---|---|
StackUnseen ProLLM Stack Unseen | 0.763 | 14 |
通用文本 Text Arena | 1445 | 33 |
Web 开发 WebDev Arena | 1395 | 38 |
APX AI
在线