Qwen3.5-4B

开源

开放权重

参数

上下文长度

262K

模态

Multimodal

架构

Dense

许可证

Apache 2.0

发布日期

24 Feb 2026

训练数据截止日期

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

10.04 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

262144 个令牌

45.98 GB VRAM

消费级

3x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

没有可用的 Qwen3.5-4B 评估基准。

排名

编程排名

关于 Qwen3.5-4B

Qwen3.5-4B 是阿里云于 2026 年 2 月发布的 40 亿参数紧凑型多模态基座模型。它采用结合了门控 Delta 网络（Gated Delta Networks）与门控注意力（Gated Attention）的混合架构，遵循 8×(3×DeltaNet→FFN→1×Attention→FFN) 的模式。该模型在 MMLU-Pro (79.1%)、GPQA Diamond (76.2%) 及 HMMT 基准测试 (74%/77%) 中表现卓越，并拥有出色的视觉-语言评分。其特点包括统一的视觉-语言能力、262k 原生上下文（可扩展至 1M）以及多词元预测训练，在推理、编程、多模态理解和涵盖 201 种语言的多语言任务中均能提供高效的性能。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

键值头

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

10,000,000

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

Yes

线性注意力比例

75.0%

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,560

层数

FFN 中间层大小（稠密层）

9,216

多 Token 预测头数

分词器

词汇量大小

248,320

模型完整性

总分

65 / 100

上游

20.0 / 30

模型

21.0 / 40

下游

24.0 / 30

资源

官方文档下载权重

关于 Qwen 3.5

Qwen 3.5 是阿里云于 2026 年 2 月发布的最新一代基础模型系列。它代表了技术的重大飞跃，集成了多模态学习（统一视觉-语言基础）、高效混合架构（带有稀疏混合专家的门控增量网络）、面向百万级智能体环境的可扩展强化学习，以及涵盖 201 种语言的全球语言能力。该模型系列已开源权重，并遵循 Apache 2.0 协议。