趋近智
注意力
注意力结构
Grouped-Query Attention
注意力头
16
键值头
8
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
Layer Normalization
激活函数
Swish
维度
隐藏维度大小
1,024
层数
24
FFN 中间层大小(稠密层)
3,072
多 Token 预测头数
-
分词器
词汇量大小
151,936
Qwen3-0.6B 是由阿里云开发的基础大语言模型,是 Qwen3 模型系列中稠密架构变体的一部分。该模型旨在高效处理和生成人类语言,能够应对各种自然语言理解和生成任务。其紧凑的参数量针对计算效率为主要设计约束的部署环境进行了优化,同时在逻辑推理、数学解题、代码合成、创意写作和自然对话等多样化应用中保持了出色的能力。
Qwen3 系列引入了一个混合推理系统,在一个统一的框架内整合了用于复杂多步推理的“思考”模式和用于快速、上下文驱动响应的“非思考”模式。这允许根据用户查询或聊天模板进行动态模式切换,从而在延迟和性能之间实现平衡,以适应不同的任务复杂度。包括 Qwen3-0.6B 在内的 Qwen3 稠密模型架构建立在先前版本的改进之上,融合了分组查询注意力 (GQA)、SwiGLU 激活函数、旋转位置编码 (RoPE) 以及带预归一化的 RMSNorm 等特性。
Qwen3-0.6B 在约 36 万亿个 token 的庞大语料库上进行了训练,涵盖 119 种语言和方言。这种广泛的多语言能力支持各种国际化应用,包括翻译和跨语言信息检索。训练方案包括一个三阶段预训练过程:第一阶段针对通用语言能力;第二阶段侧重于知识密集型数据(如 STEM、编程、推理);第三阶段通过将训练序列长度扩展至 32,768 个 token,来增强长文本理解能力。该模型还展示了强大的智能体 (Agent) 能力,有助于与外部工具集成,实现自动化和复杂的工作流编排。
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。
没有可用的 Qwen3-0.6B 评估基准。
APX AI
在线