趋近智
参数
14B
上下文长度
131K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
29 Apr 2025
训练数据截止日期
Jan 2025
注意力
注意力结构
Grouped-Query Attention
注意力头
80
键值头
8
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
Layer Normalization
激活函数
SwigLU
维度
隐藏维度大小
5,120
层数
48
FFN 中间层大小(稠密层)
17,408
多 Token 预测头数
-
分词器
词汇量大小
151,936
Qwen3-14B 是由阿里云 Qwen 团队开发的稠密 Transformer 架构大语言模型,属于第三代 Qwen 系列。该模型的一个显著特点是原生支持混合推理架构,允许从业者在处理复杂多步推理的“思考模式”与提供快速对话响应的“非思考模式”之间进行切换。这种集成通过系统级切换机制进行管理,利用特定的聊天模板或用户指令在推理过程中动态调整计算预算。思考模式专门针对需要思维链(CoT)处理的任务进行了优化,例如高等数学、代码生成和逻辑演绎。
从技术角度来看,Qwen3-14B 基于仅解码器(decoder-only)的因果架构构建,拥有 148 亿总参数。它采用了分组查询注意力(GQA)机制,包含 40 个查询头和 8 个键/值头,以提高推理吞吐量并减少内存开销。该模型使用 SwiGLU 激活函数和带有预归一化的 RMSNorm,以增强训练稳定性。在位置编码方面,它利用旋转位置嵌入(RoPE),并调整了基频以支持长上下文窗口。虽然其原生上下文长度为 32,768 个 token,但通过应用 YaRN(Yet another RoPE extensioN)缩放技术,可扩展至 131,072 个 token。
Qwen3-14B 在包含 119 种语言和方言的海量多语言语料库上进行了训练,采用了三阶段预训练流水线,重点依次为通用知识获取、推理能力增强以及长上下文微调。该模型原生兼容模型上下文协议(MCP),能够集成到智能体(Agent)工作流中,用于复杂的工具调用和环境交互。这种设计使其成为一种通用的解决方案,既适用于交互式 AI 助手,也适用于需要在分析深度与运行效率之间取得平衡的自动化系统。
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。
没有可用的 Qwen3-14B 评估基准。
APX AI
在线