ApX 标志ApX 标志

趋近智

Qwen2.5-1.5B

参数

1.5B

上下文长度

128K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

19 Sept 2024

训练数据截止日期

-

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

4.76 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

128000 个令牌

17.86 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 1.5k · Context: 128K · Vocab: 151.9kx 24 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV headsHead dim: 48+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 9k+Final RMSNormOutput Logits

评估基准

没有可用的 Qwen2.5-1.5B 评估基准。

排名

排名

-

编程排名

-

关于 Qwen2.5-1.5B

Qwen2.5-1.5B 是由阿里云开发的基础大语言模型,属于 Qwen2.5 系列。该模型拥有 15.4 亿个参数,专为在各种应用场景中高效处理和生成类人文本而设计。它在高达 18 万亿 token 的大规模数据集上进行了广泛的预训练,并针对指令遵循、编程和数学解题等专业任务进行了微调。其设计强调处理长上下文的能力以及生成连贯、准确响应的能力,使其适用于各种文本处理需求。

Qwen2.5-1.5B 的架构基础是稠密(dense)且仅解码器(decoder-only)的 Transformer。其架构的关键组件包括用于编码位置信息的旋转位置嵌入 (RoPE)、作为激活函数的 SwiGLU 以及用于有效归一化的 RMSNorm,这些组件有助于实现稳定的训练和性能提升。该模型采用了分组查询注意力 (GQA) 机制,具体配置为 12 个查询头 (query heads) 和 2 个键值头 (key-value heads),从而实现了高效的注意力机制。该模型包含 28 层,隐藏层维度为 1536。

Qwen2.5-1.5B 设计支持最高 128,000 个 token 的上下文长度,常见配置下支持 32,768 个 token 的全上下文,并支持生成最多 8,192 个 token。它的能力扩展到了 29 种以上语言的多语言理解和生成。该模型在处理表格和 JSON 等结构化数据格式方面表现出色。Qwen2.5-1.5B 的实际应用场景包括开发对话代理、虚拟助手、自动化代码生成工具、数学解题平台,以及需要强大内容创作和摘要能力的应用程序。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

1,536

层数

24

FFN 中间层大小(稠密层)

8,960

多 Token 预测头数

-

分词器

词汇量大小

151,936

模型完整性

总分

B

69 / 100

关于 Qwen2.5

阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。


其他 Qwen2.5 模型