趋近智
参数
1.5B
上下文长度
32.768K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
7 Jun 2024
训练数据截止日期
Sep 2024
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
1,536
层数
24
FFN 中间层大小(稠密层)
8,960
多 Token 预测头数
-
分词器
词汇量大小
151,936
Qwen2-1.5B 是由阿里巴巴集团 Qwen 团队开发的一款紧凑型、仅解码器(decoder-only)架构的语言模型。它旨在实现高效的自然语言处理任务,在性能与资源需求之间取得了平衡。该模型是更广泛的 Qwen2 系列的组成部分,该系列包含多种模型尺寸,并涵盖了基座模型和指令微调模型变体。其目的是为文本生成、问答和全面语言理解等广泛应用提供支持。
Qwen2-1.5B 的架构基础是 Transformer,并融入了多项技术改进以优化其运行特性。关键创新包括整合了 SwiGLU 激活函数、应用了注意力机制 QKV 偏置,以及使用了分组查询注意力(GQA)。GQA 有助于实现更高效的推理过程并减少运行时的显存占用。该模型还采用旋转位置嵌入(RoPE)来处理位置信息,并使用 RMSNorm 进行归一化。此外,其分词器经过精细改进,能够自适应处理多种自然语言和编程代码,从而显著扩展了其多语言能力。模型中还使用了绑定嵌入(Tied embeddings)以提高参数效率。
在性能特征方面,Qwen2-1.5B 在多种以语言为核心的任务中表现出强大的能力。它支持高达 32,768 个 token 的上下文长度,能够有效处理长文本输入。该模型的功能涵盖语言理解、文本生成、代码解释、数学问题解决和推理。其设计强调效率和响应速度,使其成为需要跨多种语言进行快速可靠语言处理的应用场景的理想选择。
阿里巴巴 Qwen2 模型系列是基于 Transformer 架构构建的大语言模型。该系列包含稠密(dense)和混合专家(MoE)两种变体,旨在应对多样的语言任务。其技术特性包括采用分组查询注意力(Grouped Query Attention)机制,并支持高达 131,072 个 token 的扩展上下文长度,从而优化了推理过程中的内存占用。
没有可用的 Qwen2-1.5B 评估基准。
APX AI
在线