ApX 标志ApX 标志

趋近智

Qwen2.5-14B

参数

14B

上下文长度

131.072K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

19 Sept 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

80

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

131,072

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

40

FFN 中间层大小(稠密层)

13,824

多 Token 预测头数

-

分词器

词汇量大小

152,064

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 5.1k · Context: 131.1k · Vocab: 152.1kx 40 layersRMSNormPre-AttentionGrouped-Query Attention80Q / 8KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 13.8k+Final RMSNormOutput Logits

Qwen2.5-14B

Qwen2.5-14B 是由阿里云通义千问团队研发的大语言模型,属于 Qwen2.5 模型系列。它是一个稠密(dense)、仅解码(decoder-only)的 Transformer 模型,旨在处理广泛的自然语言处理任务。该模型作为开发者和研究人员的基础组件,提供了一个可扩展的基座,可针对特定应用进行进一步微调。Qwen2.5-14B 支持多语言语境,能够理解并生成超过 29 种语言的文本。

Qwen2.5-14B 的架构基于 Transformer 主干网络,融入了多项先进组件以增强其能力。它利用旋转位置嵌入(RoPE)来有效处理序列长度,使用 SwiGLU 激活函数以提升非线性表达能力,并采用 RMSNorm 进行高效的层归一化。该模型采用了分组查询注意力(GQA)机制,配置为 40 个查询头(query heads)和 8 个键/值头(key/value heads),优化了注意力机制以降低推理过程中的显存带宽需求。该模型包含 48 层,在架构设计上兼顾了计算效率和在多样化任务中的性能表现。

Qwen2.5-14B 在高达 18 万亿 token 的海量数据集上进行了预训练,使其在逻辑推理、编程和数学任务等领域展现出卓越的能力。该模型支持高达 131,072 个 token 的扩展上下文窗口,便于处理长文档和复杂输入。虽然 Qwen2.5-14B 基础模型主要用于预训练及后续微调,但其指令微调版本针对对话式 AI、指令遵循以及生成 JSON 等结构化输出进行了优化。其设计能够满足需要大规模上下文和精确文本生成的应用需求。

关于 Qwen2.5

阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。


其他 Qwen2.5 模型

评估基准

排名

#68

基准分数排名

通用知识

MMLU

0.797

22

排名

排名

#68

编程排名

-

模型完整性

总分

B

68 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU