ApX 标志ApX 标志

趋近智

Qwen3-1.7B

参数

1.7B

上下文长度

33K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

29 Apr 2025

训练数据截止日期

Dec 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,048

层数

32

FFN 中间层大小(稠密层)

6,144

多 Token 预测头数

-

分词器

词汇量大小

151,936

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 33K · Vocab: 151.9kx 32 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 6.1k+Final RMSNormOutput Logits

Qwen3-1.7B

Qwen3-1.7B 是由阿里巴巴 Qwen 团队研发的稠密因果语言模型,是面向通用语言处理与推理任务的高效解决方案。该模型作为 Qwen3 系列的一部分于 2025 年 4 月 29 日推出,旨在各种硬件环境中高效运行,包括移动设备和边缘计算平台。它支持 32,768 个 token 的原生上下文长度,并可通过基于 YaRN 的旋转嵌入缩放技术进一步扩展,从而能够处理长篇文档和持久的多轮交互。

在技术架构上,该模型基于 Transformer 架构构建,包含 28 层,隐藏层维度为 2048。它采用了分组查询注意力(GQA)机制,包含 16 个查询头和 8 个键值头,旨在维持高性能的同时降低推理过程中的内存开销。该架构整合了先进的稳定与优化技术,包括采用预归一化的 RMSNorm、SwiGLU 激活函数,并引入了 QK-Norm 以增强长上下文场景下注意力层的稳定性。位置信息通过旋转位置嵌入(RoPE)进行管理,特别是利用了调整后的基频(ABF)方法,以确保在模型的大型上下文窗口内维持准确性。

Qwen3-1.7B 模型的一个主要创新是其原生的双模式运行能力,允许它在单一权重集下同时以“思维模式(Thinking mode)”和“非思维模式(Non-Thinking mode)”运行。思维模式会激活逐步推理过程,使模型适用于复杂的逻辑演绎、数学问题求解和代码生成;非思维模式则为标准对话应用提供直接、高速的响应。这种混合系统支持通过用户指令或 API 参数进行动态切换,允许开发者分配计算思维预算,从而在输出质量与推理延迟之间取得平衡。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

没有可用的 Qwen3-1.7B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

72 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU