趋近智
参数
3B
上下文长度
32.768K
模态
Text
架构
Dense
许可证
Qwen Research License Agreement
发布日期
19 Sept 2024
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
48
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
2,304
层数
36
FFN 中间层大小(稠密层)
11,008
多 Token 预测头数
-
分词器
词汇量大小
151,936
Qwen2.5-3B 是由阿里云开发的基础大语言模型,是通义千问 Qwen2.5 系列的组成部分。该模型主要为高级自然语言处理任务而设计,作为一个强大的基座模型,可以针对特定应用进行进一步微调。其核心用途是处理和生成类人文本,并通过专门的变体将能力扩展到编程和数学解题等更复杂的领域。
在架构设计上,Qwen2.5-3B 基于 Transformer 框架,并集成了多项关键创新以提升性能和效率。它引入了旋转位置嵌入 (RoPE) 以有效处理序列位置,采用 SwiGLU 作为激活函数以增强非线性,并利用 RMSNorm 实现稳定的跨层归一化。该模型采用了分组查询注意力机制 (GQA),具体配置为 16 个查询头和 2 个键值头,通过减少序列生成过程中键值 (KV) 缓存的内存占用,优化了推理效率。该模型由 36 层组成,参数总量为 30.9 亿,这种稠密架构旨在实现模型能力与计算可行性之间的平衡。
Qwen2.5-3B 支持高达 32,768 个 token 的上下文长度,能够在处理长文本输入的同时保持连贯性。对于特定应用或指令微调版本,它最高可支持 128,000 个 token 的上下文。该模型在指令遵循和结构化输出(如 JSON)生成方面表现出色。它还提供广泛的多语言支持,涵盖 29 种以上的语言,使其适用于需要多样化语言理解和生成能力的全球化应用。其设计重点是为各种基于文本的 AI 应用提供强大的基础。
阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。
没有可用的 Qwen2.5-3B 评估基准。
APX AI
在线