趋近智
参数
72B
上下文长度
32.768K
模态
Text
架构
Dense
许可证
Tongyi Qianwen LICENSE AGREEMENT
发布日期
7 Jun 2024
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
128
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
8,192
层数
80
FFN 中间层大小(稠密层)
29,568
多 Token 预测头数
-
分词器
词汇量大小
152,064
Qwen2-72B 是阿里巴巴开发的 Qwen2 大语言模型系列中的一个重要迭代版本。该模型旨在处理各种自然语言处理任务,涵盖理解与生成,并精通编程和数学解题。它作为一款基础模型,旨在通过进一步的专门微调来解决特定应用领域的需求。
Qwen2-72B 的架构基础是 Transformer,并结合了多项改进以提升计算效率和模型性能。关键创新包括采用了 SwiGLU 激活函数,并实现了分组查询注意力(Group Query Attention, GQA)机制,从而优化了注意力机制,减少了内存占用并加速了推理。此外,该模型采用了增强的分词器(tokenizer),旨在有效处理各种自然语言和编程代码。值得注意的是,Qwen2-72B 保持了稠密(dense)模型架构,这使其区别于 Qwen2 系列中其他变体所采用的混合专家(MoE)配置。
从功能角度来看,Qwen2-72B 在多个关键领域展示了出色的能力。它旨在胜任需要复杂自然语言理解、强大的语言生成能力以及熟练的编程和数学推理的任务。虽然其定位为基础模型,但它提供了坚实的预训练基础,适用于诸如监督微调(SFT)和人类反馈强化学习(RLHF)等后训练方法。这种设计理念支持将其应用于需要广泛多语言理解、复杂代码操作或高级数学计算的场景。
阿里巴巴 Qwen2 模型系列是基于 Transformer 架构构建的大语言模型。该系列包含稠密(dense)和混合专家(MoE)两种变体,旨在应对多样的语言任务。其技术特性包括采用分组查询注意力(Grouped Query Attention)机制,并支持高达 131,072 个 token 的扩展上下文长度,从而优化了推理过程中的内存占用。
排名
#98
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.823 | 19 |
Web 开发 WebDev Arena | 1261 | 69 |
APX AI
在线