趋近智
注意力
注意力结构
Grouped-Query Attention
注意力头
64
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
131,072
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
3,584
层数
32
FFN 中间层大小(稠密层)
18,944
多 Token 预测头数
-
分词器
词汇量大小
152,064
Qwen2-7B 是由阿里云开发的仅解码器(decoder-only)Transformer 模型,属于 Qwen2 系列大语言模型的一部分。它被专门设计为基础模型,旨在用于各种自然语言处理应用,包括全面的语言理解和生成任务。虽然 Qwen2-7B 基座模型适用于进一步的训练后流程,如监督微调(SFT)和基于人类反馈的强化学习(RLHF),但其指令微调变体也可直接部署于指令遵循场景,支持各种对话式和任务导向型应用。该模型的训练数据集涵盖了包括英语、中文以及其他 27 种语言在内的广泛语言,从而扩展了其通用性并实现了强大的多语言能力。
Qwen2-7B 的架构设计整合了多项旨在优化性能和效率的技术特性。它在全连接前馈网络中使用了 SwiGLU 激活函数,并引入了注意力机制的 QKV 偏置。Qwen2 系列的一个显著创新是实施了分组查询注意力(GQA),旨在提高推理速度并降低显存消耗。位置编码由旋转位置嵌入(RoPE)管理,并采用类似 YaRN(Yet Another RoPE Normalization)的技术以实现对更长上下文长度的外推。模型架构中的归一化层采用了 RMSNorm。此外,该模型还受益于增强的分词器,该分词器专为适应多种自然语言和编程代码而设计。
Qwen2-7B 展现了处理大规模输入序列的能力。基座模型支持 32,000 个 token 的预训练上下文长度,外推能力可达 128,000 个 token。其指令微调变体支持高达 131,072 个 token 的上下文长度,使模型能够处理并对超长文本进行推理。该模型旨在各种认知领域表现出熟练的性能,包括自然语言理解、通用问答、文本摘要、内容创作、代码辅助和数学问题解决。由于 7B 模型能够在配备 16GB 显存的加速器上以 16 位浮点(FP16/BF16)精度运行,因此得到了广泛应用。Qwen2 系列模型基于 Apache 2.0 许可证发布,支持开放研究、开发和商业用途。
阿里巴巴 Qwen2 模型系列是基于 Transformer 架构构建的大语言模型。该系列包含稠密(dense)和混合专家(MoE)两种变体,旨在应对多样的语言任务。其技术特性包括采用分组查询注意力(Grouped Query Attention)机制,并支持高达 131,072 个 token 的扩展上下文长度,从而优化了推理过程中的内存占用。
排名
#111
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.705 | 30 |
APX AI
在线