ApX 标志ApX 标志

趋近智

Qwen2.5-7B

参数

7B

上下文长度

131.072K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

19 Sept 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

64

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

18,944

多 Token 预测头数

-

分词器

词汇量大小

152,064

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 131.1k · Vocab: 152.1kx 32 layersRMSNormPre-AttentionGrouped-Query Attention64Q / 8KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 18.9k+Final RMSNormOutput Logits

Qwen2.5-7B

Qwen2.5-7B 是由阿里云开发的基础大语言模型,是 Qwen2.5 系列的一部分。该模型是一种为通用应用设计的因果语言模型,为后续的微调和专门任务提供了坚实的基础。它旨在通过整合扩展的知识库并增强其在核心语言理解和生成任务中的表现,来扩展其前代模型的语言能力。该模型提供多语言支持,能够处理超过 29 种语言。这种通用性使 Qwen2.5-7B 成为各种自然语言处理系统的基础组件。

在架构上,Qwen2.5-7B 采用了基于 Transformer 的编码器-解码器框架。关键架构组件包括用于有效处理序列长度和位置的旋转位置嵌入 (RoPE)、作为非线性激活函数的 SwiGLU 以及用于跨层稳定归一化的 RMSNorm。注意力机制采用分组查询注意力 (GQA),通过在多个查询头之间共享键和值投影来优化计算效率。具体而言,7B 变体在 28 层中使用了 28 个查询注意力头和 4 个键/值对注意力头。这种配置有助于高效处理长序列。

Qwen2.5-7B 模型适用于预训练,为开发者通过有监督微调 (SFT) 或基于人类反馈的强化学习 (RLHF) 等进一步训练阶段提供了基础。虽然它是一个基础模型,但 Qwen2.5 系列得益于专门的专家模型,在代码和数学等领域表现出增强的能力。它还在指令遵循、处理结构化数据以及生成长文本输出(包括 JSON 等格式化数据)方面展现出更高的熟练度。该模型处理高达 131,072 个 token 的上下文长度的能力,支持处理极长的输入。

关于 Qwen2.5

阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。


其他 Qwen2.5 模型

评估基准

没有可用的 Qwen2.5-7B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

64 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU