ApX 标志ApX 标志

趋近智

Qwen2-72B

参数

72B

上下文长度

32.768K

模态

Text

架构

Dense

许可证

Tongyi Qianwen LICENSE AGREEMENT

发布日期

7 Jun 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

128

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

8,192

层数

80

FFN 中间层大小(稠密层)

29,568

多 Token 预测头数

-

分词器

词汇量大小

152,064

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 8.2k · Context: 32.8k · Vocab: 152.1kx 80 layersRMSNormPre-AttentionGrouped-Query Attention128Q / 8KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 29.6k+Final RMSNormOutput Logits

Qwen2-72B

Qwen2-72B 是阿里巴巴开发的 Qwen2 大语言模型系列中的一个重要迭代版本。该模型旨在处理各种自然语言处理任务,涵盖理解与生成,并精通编程和数学解题。它作为一款基础模型,旨在通过进一步的专门微调来解决特定应用领域的需求。

Qwen2-72B 的架构基础是 Transformer,并结合了多项改进以提升计算效率和模型性能。关键创新包括采用了 SwiGLU 激活函数,并实现了分组查询注意力(Group Query Attention, GQA)机制,从而优化了注意力机制,减少了内存占用并加速了推理。此外,该模型采用了增强的分词器(tokenizer),旨在有效处理各种自然语言和编程代码。值得注意的是,Qwen2-72B 保持了稠密(dense)模型架构,这使其区别于 Qwen2 系列中其他变体所采用的混合专家(MoE)配置。

从功能角度来看,Qwen2-72B 在多个关键领域展示了出色的能力。它旨在胜任需要复杂自然语言理解、强大的语言生成能力以及熟练的编程和数学推理的任务。虽然其定位为基础模型,但它提供了坚实的预训练基础,适用于诸如监督微调(SFT)和人类反馈强化学习(RLHF)等后训练方法。这种设计理念支持将其应用于需要广泛多语言理解、复杂代码操作或高级数学计算的场景。

关于 Qwen2

阿里巴巴 Qwen2 模型系列是基于 Transformer 架构构建的大语言模型。该系列包含稠密(dense)和混合专家(MoE)两种变体,旨在应对多样的语言任务。其技术特性包括采用分组查询注意力(Grouped Query Attention)机制,并支持高达 131,072 个 token 的扩展上下文长度,从而优化了推理过程中的内存占用。


其他 Qwen2 模型

评估基准

排名

#98

基准分数排名

通用知识

MMLU

0.823

19

Web 开发

WebDev Arena

1261

69

排名

排名

#98

编程排名

#86

模型完整性

总分

B-

63 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU