ApX 标志ApX 标志

趋近智

Qwen2-1.5B

参数

1.5B

上下文长度

32.768K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

7 Jun 2024

训练数据截止日期

Sep 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

1,536

层数

24

FFN 中间层大小(稠密层)

8,960

多 Token 预测头数

-

分词器

词汇量大小

151,936

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 1.5k · Context: 32.8k · Vocab: 151.9kx 24 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV headsHead dim: 48+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 9k+Final RMSNormOutput Logits

Qwen2-1.5B

Qwen2-1.5B 是由阿里巴巴集团 Qwen 团队开发的一款紧凑型、仅解码器(decoder-only)架构的语言模型。它旨在实现高效的自然语言处理任务,在性能与资源需求之间取得了平衡。该模型是更广泛的 Qwen2 系列的组成部分,该系列包含多种模型尺寸,并涵盖了基座模型和指令微调模型变体。其目的是为文本生成、问答和全面语言理解等广泛应用提供支持。

Qwen2-1.5B 的架构基础是 Transformer,并融入了多项技术改进以优化其运行特性。关键创新包括整合了 SwiGLU 激活函数、应用了注意力机制 QKV 偏置,以及使用了分组查询注意力(GQA)。GQA 有助于实现更高效的推理过程并减少运行时的显存占用。该模型还采用旋转位置嵌入(RoPE)来处理位置信息,并使用 RMSNorm 进行归一化。此外,其分词器经过精细改进,能够自适应处理多种自然语言和编程代码,从而显著扩展了其多语言能力。模型中还使用了绑定嵌入(Tied embeddings)以提高参数效率。

在性能特征方面,Qwen2-1.5B 在多种以语言为核心的任务中表现出强大的能力。它支持高达 32,768 个 token 的上下文长度,能够有效处理长文本输入。该模型的功能涵盖语言理解、文本生成、代码解释、数学问题解决和推理。其设计强调效率和响应速度,使其成为需要跨多种语言进行快速可靠语言处理的应用场景的理想选择。

关于 Qwen2

阿里巴巴 Qwen2 模型系列是基于 Transformer 架构构建的大语言模型。该系列包含稠密(dense)和混合专家(MoE)两种变体,旨在应对多样的语言任务。其技术特性包括采用分组查询注意力(Grouped Query Attention)机制,并支持高达 131,072 个 token 的扩展上下文长度,从而优化了推理过程中的内存占用。


其他 Qwen2 模型

评估基准

没有可用的 Qwen2-1.5B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B-

63 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU