趋近智
参数
800M
上下文长度
262.144K
模态
Multimodal
架构
Dense
许可证
Apache 2.0
发布日期
24 Feb 2026
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
8
键值头
2
注意力头维度
256
位置嵌入
ROPE
RoPE Theta
10,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
1,024
层数
24
FFN 中间层大小(稠密层)
3,584
多 Token 预测头数
1
分词器
词汇量大小
248,320
Qwen3.5-0.8B 是阿里云于 2026 年 2 月发布的超紧凑多模态基础模型,拥有 0.8B 参数。它采用了结合门控 Delta 网络 (Gated Delta Networks) 与门控注意力 (Gated Attention) 的混合架构,遵循 6×(3×DeltaNet→FFN→1×Attention→FFN) 模式。在思考模式下,其 MMLU-Pro 达到 66.5%,GPQA Diamond 达到 51.6%,GPQA 达到 11.9%。该模型具备统一的视觉-语言能力、262k 原生上下文长度、多 Token 预测训练,并支持思考与非思考模式,旨在为 201 种语言的原型设计、微调及研究提供支持。
Qwen 3.5 是阿里云于 2026 年 2 月发布的最新一代基础模型系列。它代表了技术的重大飞跃,集成了多模态学习(统一视觉-语言基础)、高效混合架构(带有稀疏混合专家的门控增量网络)、面向百万级智能体环境的可扩展强化学习,以及涵盖 201 种语言的全球语言能力。该模型系列已开源权重,并遵循 Apache 2.0 协议。
没有可用的 Qwen3.5-0.8B 评估基准。
APX AI
在线