ApX 标志ApX 标志

趋近智

Qwen3-4B

参数

4B

上下文长度

32.768K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

29 Apr 2025

训练数据截止日期

Mar 2025

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

48

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

4,096

层数

40

FFN 中间层大小(稠密层)

9,728

多 Token 预测头数

-

分词器

词汇量大小

151,936

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 32.8k · Vocab: 151.9kx 40 layersRMSNormPre-AttentionGrouped-Query Attention48Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwishIntermediate: 9.7k+Final RMSNormOutput Logits

Qwen3-4B

Qwen3-4B 是由阿里巴巴开发的具有 40 亿参数的稠密因果语言模型,属于通义千问(Qwen)系列的第三代。该模型的一项核心创新是支持双模式运行的统一架构,允许在“思考”和“非思考”状态之间进行动态切换。在思考模式下,模型会进行类似于思维链(CoT)处理的大量、多步逻辑推理,使其在处理复杂的数学问题和精细的代码生成方面表现出色。相反,非思考模式针对通用对话场景中的低延迟和直接响应进行了优化,为推理深度次于响应速度的任务提供了一种高效的替代方案。

在技术层面,该模型基于 Transformer 架构构建,包含 36 层,总参数量为 40 亿。它采用了分组查询注意力(GQA)机制,包含 32 个查询注意力头和 8 个键值头,确保了推理过程中的高计算吞吐量。模型使用旋转位置嵌入(RoPE),并在 32,768 个标记(token)的上下文窗口上进行原生训练,通过 YaRN 缩放技术可扩展至 131,072 个标记。这一架构基础通过包含 119 种语言、36 万亿标记的三阶段预训练流水线得到进一步完善,重点结合了高质量的 STEM、编程和多语言数据,以确保广泛的专业能力。

Qwen3-4B 旨在实现部署的多功能性,特别适用于在有限的参数规模内需要复杂推理能力的场景。其对思考模式的原生支持使其能够作为复杂指令遵循和智能体(Agent)工作流的推理引擎,而无需额外的专门模型。SwiGLU 激活函数和 RMSNorm 的集成确保了稳定的训练动态,而在 4B 等较小变体中引入的“系留嵌入”(tied embeddings)有助于优化内存占用。它在跨语言任务、基于工具的交互以及广泛领域的结构化输出生成方面表现得极为高效。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

排名

#57

基准分数排名

通用知识

MMLU

0.815

20

排名

排名

#57

编程排名

-

模型完整性

总分

B+

76 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU