ApX 标志ApX 标志

趋近智

Qwen3.5-0.8B

参数

800M

上下文长度

262.144K

模态

Multimodal

架构

Dense

许可证

Apache 2.0

发布日期

24 Feb 2026

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

8

键值头

2

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

10,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

1,024

层数

24

FFN 中间层大小(稠密层)

3,584

多 Token 预测头数

1

分词器

词汇量大小

248,320

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 1k · Context: 262.1k · Vocab: 248.3kx 24 layersRMSNormPre-AttentionGrouped-Query Attention8Q / 2KV headsHead dim: 256+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 3.6k+Final RMSNormOutput Logits

Qwen3.5-0.8B

Qwen3.5-0.8B 是阿里云于 2026 年 2 月发布的超紧凑多模态基础模型,拥有 0.8B 参数。它采用了结合门控 Delta 网络 (Gated Delta Networks) 与门控注意力 (Gated Attention) 的混合架构,遵循 6×(3×DeltaNet→FFN→1×Attention→FFN) 模式。在思考模式下,其 MMLU-Pro 达到 66.5%,GPQA Diamond 达到 51.6%,GPQA 达到 11.9%。该模型具备统一的视觉-语言能力、262k 原生上下文长度、多 Token 预测训练,并支持思考与非思考模式,旨在为 201 种语言的原型设计、微调及研究提供支持。

关于 Qwen 3.5

Qwen 3.5 是阿里云于 2026 年 2 月发布的最新一代基础模型系列。它代表了技术的重大飞跃,集成了多模态学习(统一视觉-语言基础)、高效混合架构(带有稀疏混合专家的门控增量网络)、面向百万级智能体环境的可扩展强化学习,以及涵盖 201 种语言的全球语言能力。该模型系列已开源权重,并遵循 Apache 2.0 协议。


其他 Qwen 3.5 模型

评估基准

没有可用的 Qwen3.5-0.8B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

69 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
128k
256k

所需显存:

推荐 GPU

Qwen3.5-0.8B:规格和 GPU 显存要求