ApX 标志ApX 标志

趋近智

Qwen3-14B

参数

14B

上下文长度

131K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

29 Apr 2025

训练数据截止日期

Jan 2025

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

80

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

Layer Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

48

FFN 中间层大小(稠密层)

17,408

多 Token 预测头数

-

分词器

词汇量大小

151,936

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 5.1k · Context: 131K · Vocab: 151.9kx 48 layersLayerNormPre-AttentionGrouped-Query Attention80Q / 8KV headsHead dim: 128+LayerNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 17.4k+Final LayerNormOutput Logits

Qwen3-14B

Qwen3-14B 是由阿里云 Qwen 团队开发的稠密 Transformer 架构大语言模型,属于第三代 Qwen 系列。该模型的一个显著特点是原生支持混合推理架构,允许从业者在处理复杂多步推理的“思考模式”与提供快速对话响应的“非思考模式”之间进行切换。这种集成通过系统级切换机制进行管理,利用特定的聊天模板或用户指令在推理过程中动态调整计算预算。思考模式专门针对需要思维链(CoT)处理的任务进行了优化,例如高等数学、代码生成和逻辑演绎。

从技术角度来看,Qwen3-14B 基于仅解码器(decoder-only)的因果架构构建,拥有 148 亿总参数。它采用了分组查询注意力(GQA)机制,包含 40 个查询头和 8 个键/值头,以提高推理吞吐量并减少内存开销。该模型使用 SwiGLU 激活函数和带有预归一化的 RMSNorm,以增强训练稳定性。在位置编码方面,它利用旋转位置嵌入(RoPE),并调整了基频以支持长上下文窗口。虽然其原生上下文长度为 32,768 个 token,但通过应用 YaRN(Yet another RoPE extensioN)缩放技术,可扩展至 131,072 个 token。

Qwen3-14B 在包含 119 种语言和方言的海量多语言语料库上进行了训练,采用了三阶段预训练流水线,重点依次为通用知识获取、推理能力增强以及长上下文微调。该模型原生兼容模型上下文协议(MCP),能够集成到智能体(Agent)工作流中,用于复杂的工具调用和环境交互。这种设计使其成为一种通用的解决方案,既适用于交互式 AI 助手,也适用于需要在分析深度与运行效率之间取得平衡的自动化系统。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

没有可用的 Qwen3-14B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

72 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU