ApX 标志ApX 标志

趋近智

Qwen2-7B

参数

7B

上下文长度

131K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

7 Jun 2024

训练数据截止日期

Dec 2023

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

64

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

131,072

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

3,584

层数

32

FFN 中间层大小(稠密层)

18,944

多 Token 预测头数

-

分词器

词汇量大小

152,064

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 3.6k · Context: 131K · Vocab: 152.1kx 32 layersRMSNormPre-AttentionGrouped-Query Attention64Q / 8KV headsHead dim: 56+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 18.9k+Final RMSNormOutput Logits

Qwen2-7B

Qwen2-7B 是由阿里云开发的仅解码器(decoder-only)Transformer 模型,属于 Qwen2 系列大语言模型的一部分。它被专门设计为基础模型,旨在用于各种自然语言处理应用,包括全面的语言理解和生成任务。虽然 Qwen2-7B 基座模型适用于进一步的训练后流程,如监督微调(SFT)和基于人类反馈的强化学习(RLHF),但其指令微调变体也可直接部署于指令遵循场景,支持各种对话式和任务导向型应用。该模型的训练数据集涵盖了包括英语、中文以及其他 27 种语言在内的广泛语言,从而扩展了其通用性并实现了强大的多语言能力。

Qwen2-7B 的架构设计整合了多项旨在优化性能和效率的技术特性。它在全连接前馈网络中使用了 SwiGLU 激活函数,并引入了注意力机制的 QKV 偏置。Qwen2 系列的一个显著创新是实施了分组查询注意力(GQA),旨在提高推理速度并降低显存消耗。位置编码由旋转位置嵌入(RoPE)管理,并采用类似 YaRN(Yet Another RoPE Normalization)的技术以实现对更长上下文长度的外推。模型架构中的归一化层采用了 RMSNorm。此外,该模型还受益于增强的分词器,该分词器专为适应多种自然语言和编程代码而设计。

Qwen2-7B 展现了处理大规模输入序列的能力。基座模型支持 32,000 个 token 的预训练上下文长度,外推能力可达 128,000 个 token。其指令微调变体支持高达 131,072 个 token 的上下文长度,使模型能够处理并对超长文本进行推理。该模型旨在各种认知领域表现出熟练的性能,包括自然语言理解、通用问答、文本摘要、内容创作、代码辅助和数学问题解决。由于 7B 模型能够在配备 16GB 显存的加速器上以 16 位浮点(FP16/BF16)精度运行,因此得到了广泛应用。Qwen2 系列模型基于 Apache 2.0 许可证发布,支持开放研究、开发和商业用途。

关于 Qwen2

阿里巴巴 Qwen2 模型系列是基于 Transformer 架构构建的大语言模型。该系列包含稠密(dense)和混合专家(MoE)两种变体,旨在应对多样的语言任务。其技术特性包括采用分组查询注意力(Grouped Query Attention)机制,并支持高达 131,072 个 token 的扩展上下文长度,从而优化了推理过程中的内存占用。


其他 Qwen2 模型

评估基准

排名

#111

基准分数排名

通用知识

MMLU

0.705

30

排名

排名

#111

编程排名

-

模型完整性

总分

B

68 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU