ApX 标志ApX 标志

趋近智

Qwen3-0.6B

参数

600M

上下文长度

32.768K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

29 Apr 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

16

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

Layer Normalization

激活函数

Swish

维度

隐藏维度大小

1,024

层数

24

FFN 中间层大小(稠密层)

3,072

多 Token 预测头数

-

分词器

词汇量大小

151,936

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 1k · Context: 32.8k · Vocab: 151.9kx 24 layersLayerNormPre-AttentionGrouped-Query Attention16Q / 8KV headsHead dim: 128+LayerNormPre-FFNFeed-Forward NetworkSwishIntermediate: 3.1k+Final LayerNormOutput Logits

Qwen3-0.6B

Qwen3-0.6B 是由阿里云开发的基础大语言模型,是 Qwen3 模型系列中稠密架构变体的一部分。该模型旨在高效处理和生成人类语言,能够应对各种自然语言理解和生成任务。其紧凑的参数量针对计算效率为主要设计约束的部署环境进行了优化,同时在逻辑推理、数学解题、代码合成、创意写作和自然对话等多样化应用中保持了出色的能力。

Qwen3 系列引入了一个混合推理系统,在一个统一的框架内整合了用于复杂多步推理的“思考”模式和用于快速、上下文驱动响应的“非思考”模式。这允许根据用户查询或聊天模板进行动态模式切换,从而在延迟和性能之间实现平衡,以适应不同的任务复杂度。包括 Qwen3-0.6B 在内的 Qwen3 稠密模型架构建立在先前版本的改进之上,融合了分组查询注意力 (GQA)、SwiGLU 激活函数、旋转位置编码 (RoPE) 以及带预归一化的 RMSNorm 等特性。

Qwen3-0.6B 在约 36 万亿个 token 的庞大语料库上进行了训练,涵盖 119 种语言和方言。这种广泛的多语言能力支持各种国际化应用,包括翻译和跨语言信息检索。训练方案包括一个三阶段预训练过程:第一阶段针对通用语言能力;第二阶段侧重于知识密集型数据(如 STEM、编程、推理);第三阶段通过将训练序列长度扩展至 32,768 个 token,来增强长文本理解能力。该模型还展示了强大的智能体 (Agent) 能力,有助于与外部工具集成,实现自动化和复杂的工作流编排。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

没有可用的 Qwen3-0.6B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

73 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU