趋近智
参数
7B
上下文长度
131.072K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
19 Sept 2024
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
64
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
18,944
多 Token 预测头数
-
分词器
词汇量大小
152,064
Qwen2.5-7B 是由阿里云开发的基础大语言模型,是 Qwen2.5 系列的一部分。该模型是一种为通用应用设计的因果语言模型,为后续的微调和专门任务提供了坚实的基础。它旨在通过整合扩展的知识库并增强其在核心语言理解和生成任务中的表现,来扩展其前代模型的语言能力。该模型提供多语言支持,能够处理超过 29 种语言。这种通用性使 Qwen2.5-7B 成为各种自然语言处理系统的基础组件。
在架构上,Qwen2.5-7B 采用了基于 Transformer 的编码器-解码器框架。关键架构组件包括用于有效处理序列长度和位置的旋转位置嵌入 (RoPE)、作为非线性激活函数的 SwiGLU 以及用于跨层稳定归一化的 RMSNorm。注意力机制采用分组查询注意力 (GQA),通过在多个查询头之间共享键和值投影来优化计算效率。具体而言,7B 变体在 28 层中使用了 28 个查询注意力头和 4 个键/值对注意力头。这种配置有助于高效处理长序列。
Qwen2.5-7B 模型适用于预训练,为开发者通过有监督微调 (SFT) 或基于人类反馈的强化学习 (RLHF) 等进一步训练阶段提供了基础。虽然它是一个基础模型,但 Qwen2.5 系列得益于专门的专家模型,在代码和数学等领域表现出增强的能力。它还在指令遵循、处理结构化数据以及生成长文本输出(包括 JSON 等格式化数据)方面展现出更高的熟练度。该模型处理高达 131,072 个 token 的上下文长度的能力,支持处理极长的输入。
阿里巴巴的 Qwen2.5 是一个稠密、仅解码器(decoder-only)架构的语言模型系列,提供多种参数规模,其中部分变体采用了专家混合(Mixture-of-Experts)技术。这些模型在大规模数据集上进行了预训练,支持扩展的上下文长度和多语言交流。该系列还包含针对编程、数学以及视觉和音频处理等多模态任务的专业化模型。
没有可用的 Qwen2.5-7B 评估基准。
APX AI
在线