趋近智
参数
1.7B
上下文长度
33K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
29 Apr 2025
训练数据截止日期
Dec 2024
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
2,048
层数
32
FFN 中间层大小(稠密层)
6,144
多 Token 预测头数
-
分词器
词汇量大小
151,936
Qwen3-1.7B 是由阿里巴巴 Qwen 团队研发的稠密因果语言模型,是面向通用语言处理与推理任务的高效解决方案。该模型作为 Qwen3 系列的一部分于 2025 年 4 月 29 日推出,旨在各种硬件环境中高效运行,包括移动设备和边缘计算平台。它支持 32,768 个 token 的原生上下文长度,并可通过基于 YaRN 的旋转嵌入缩放技术进一步扩展,从而能够处理长篇文档和持久的多轮交互。
在技术架构上,该模型基于 Transformer 架构构建,包含 28 层,隐藏层维度为 2048。它采用了分组查询注意力(GQA)机制,包含 16 个查询头和 8 个键值头,旨在维持高性能的同时降低推理过程中的内存开销。该架构整合了先进的稳定与优化技术,包括采用预归一化的 RMSNorm、SwiGLU 激活函数,并引入了 QK-Norm 以增强长上下文场景下注意力层的稳定性。位置信息通过旋转位置嵌入(RoPE)进行管理,特别是利用了调整后的基频(ABF)方法,以确保在模型的大型上下文窗口内维持准确性。
Qwen3-1.7B 模型的一个主要创新是其原生的双模式运行能力,允许它在单一权重集下同时以“思维模式(Thinking mode)”和“非思维模式(Non-Thinking mode)”运行。思维模式会激活逐步推理过程,使模型适用于复杂的逻辑演绎、数学问题求解和代码生成;非思维模式则为标准对话应用提供直接、高速的响应。这种混合系统支持通过用户指令或 API 参数进行动态切换,允许开发者分配计算思维预算,从而在输出质量与推理延迟之间取得平衡。
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。
没有可用的 Qwen3-1.7B 评估基准。
APX AI
在线