趋近智
参数
14B
上下文长度
131.072K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
19 Sept 2024
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
80
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
131,072
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
5,120
层数
40
FFN 中间层大小(稠密层)
13,824
多 Token 预测头数
-
分词器
词汇量大小
152,064
Qwen2.5-14B 是由阿里云通义千问团队研发的大语言模型,属于 Qwen2.5 模型系列。它是一个稠密(dense)、仅解码(decoder-only)的 Transformer 模型,旨在处理广泛的自然语言处理任务。该模型作为开发者和研究人员的基础组件,提供了一个可扩展的基座,可针对特定应用进行进一步微调。Qwen2.5-14B 支持多语言语境,能够理解并生成超过 29 种语言的文本。
Qwen2.5-14B 的架构基于 Transformer 主干网络,融入了多项先进组件以增强其能力。它利用旋转位置嵌入(RoPE)来有效处理序列长度,使用 SwiGLU 激活函数以提升非线性表达能力,并采用 RMSNorm 进行高效的层归一化。该模型采用了分组查询注意力(GQA)机制,配置为 40 个查询头(query heads)和 8 个键/值头(key/value heads),优化了注意力机制以降低推理过程中的显存带宽需求。该模型包含 48 层,在架构设计上兼顾了计算效率和在多样化任务中的性能表现。
Qwen2.5-14B 在高达 18 万亿 token 的海量数据集上进行了预训练,使其在逻辑推理、编程和数学任务等领域展现出卓越的能力。该模型支持高达 131,072 个 token 的扩展上下文窗口,便于处理长文档和复杂输入。虽然 Qwen2.5-14B 基础模型主要用于预训练及后续微调,但其指令微调版本针对对话式 AI、指令遵循以及生成 JSON 等结构化输出进行了优化。其设计能够满足需要大规模上下文和精确文本生成的应用需求。
阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。
排名
#68
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.797 | 22 |
APX AI
在线