ApX 标志ApX 标志

趋近智

Qwen2.5-3B

参数

3B

上下文长度

32.768K

模态

Text

架构

Dense

许可证

Qwen Research License Agreement

发布日期

19 Sept 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

48

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,304

层数

36

FFN 中间层大小(稠密层)

11,008

多 Token 预测头数

-

分词器

词汇量大小

151,936

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2.3k · Context: 32.8k · Vocab: 151.9kx 36 layersRMSNormPre-AttentionGrouped-Query Attention48Q / 8KV headsHead dim: 48+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 11k+Final RMSNormOutput Logits

Qwen2.5-3B

Qwen2.5-3B 是由阿里云开发的基础大语言模型,是通义千问 Qwen2.5 系列的组成部分。该模型主要为高级自然语言处理任务而设计,作为一个强大的基座模型,可以针对特定应用进行进一步微调。其核心用途是处理和生成类人文本,并通过专门的变体将能力扩展到编程和数学解题等更复杂的领域。

在架构设计上,Qwen2.5-3B 基于 Transformer 框架,并集成了多项关键创新以提升性能和效率。它引入了旋转位置嵌入 (RoPE) 以有效处理序列位置,采用 SwiGLU 作为激活函数以增强非线性,并利用 RMSNorm 实现稳定的跨层归一化。该模型采用了分组查询注意力机制 (GQA),具体配置为 16 个查询头和 2 个键值头,通过减少序列生成过程中键值 (KV) 缓存的内存占用,优化了推理效率。该模型由 36 层组成,参数总量为 30.9 亿,这种稠密架构旨在实现模型能力与计算可行性之间的平衡。

Qwen2.5-3B 支持高达 32,768 个 token 的上下文长度,能够在处理长文本输入的同时保持连贯性。对于特定应用或指令微调版本,它最高可支持 128,000 个 token 的上下文。该模型在指令遵循和结构化输出(如 JSON)生成方面表现出色。它还提供广泛的多语言支持,涵盖 29 种以上的语言,使其适用于需要多样化语言理解和生成能力的全球化应用。其设计重点是为各种基于文本的 AI 应用提供强大的基础。

关于 Qwen2.5

阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。


其他 Qwen2.5 模型

评估基准

没有可用的 Qwen2.5-3B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

65 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU