趋近智
参数
4B
上下文长度
32.768K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
29 Apr 2025
训练数据截止日期
Mar 2025
注意力
注意力结构
Grouped-Query Attention
注意力头
48
键值头
8
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
4,096
层数
40
FFN 中间层大小(稠密层)
9,728
多 Token 预测头数
-
分词器
词汇量大小
151,936
Qwen3-4B 是由阿里巴巴开发的具有 40 亿参数的稠密因果语言模型,属于通义千问(Qwen)系列的第三代。该模型的一项核心创新是支持双模式运行的统一架构,允许在“思考”和“非思考”状态之间进行动态切换。在思考模式下,模型会进行类似于思维链(CoT)处理的大量、多步逻辑推理,使其在处理复杂的数学问题和精细的代码生成方面表现出色。相反,非思考模式针对通用对话场景中的低延迟和直接响应进行了优化,为推理深度次于响应速度的任务提供了一种高效的替代方案。
在技术层面,该模型基于 Transformer 架构构建,包含 36 层,总参数量为 40 亿。它采用了分组查询注意力(GQA)机制,包含 32 个查询注意力头和 8 个键值头,确保了推理过程中的高计算吞吐量。模型使用旋转位置嵌入(RoPE),并在 32,768 个标记(token)的上下文窗口上进行原生训练,通过 YaRN 缩放技术可扩展至 131,072 个标记。这一架构基础通过包含 119 种语言、36 万亿标记的三阶段预训练流水线得到进一步完善,重点结合了高质量的 STEM、编程和多语言数据,以确保广泛的专业能力。
Qwen3-4B 旨在实现部署的多功能性,特别适用于在有限的参数规模内需要复杂推理能力的场景。其对思考模式的原生支持使其能够作为复杂指令遵循和智能体(Agent)工作流的推理引擎,而无需额外的专门模型。SwiGLU 激活函数和 RMSNorm 的集成确保了稳定的训练动态,而在 4B 等较小变体中引入的“系留嵌入”(tied embeddings)有助于优化内存占用。它在跨语言任务、基于工具的交互以及广泛领域的结构化输出生成方面表现得极为高效。
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。
排名
#57
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.815 | 20 |
APX AI
在线