趋近智
注意力
注意力结构
Grouped-Query Attention
注意力头
16
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
131,072
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
896
层数
24
FFN 中间层大小(稠密层)
4,864
多 Token 预测头数
-
分词器
词汇量大小
151,936
Qwen2-0.5B 模型是由阿里巴巴 Qwen 团队开发的大语言模型 Qwen2 系列中的一款轻量级且功能强大的模型。该模型旨在提供基础的语言处理能力,非常适合在计算资源受限的环境中进行部署。作为一款基础语言模型,其主要用途是作为一个稳健的起点,通过监督微调或人类反馈强化学习等后训练方法进行进一步的专业化开发。它旨在高效地支持多种自然语言处理任务。
阿里巴巴 Qwen2 模型系列是基于 Transformer 架构构建的大语言模型。该系列包含稠密(dense)和混合专家(MoE)两种变体,旨在应对多样的语言任务。其技术特性包括采用分组查询注意力(Grouped Query Attention)机制,并支持高达 131,072 个 token 的扩展上下文长度,从而优化了推理过程中的内存占用。
没有可用的 Qwen2-0.5B 评估基准。
APX AI
在线