ApX 标志ApX 标志

趋近智

Qwen2-0.5B

参数

500M

上下文长度

32.768K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

7 Jun 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

16

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

131,072

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

896

层数

24

FFN 中间层大小(稠密层)

4,864

多 Token 预测头数

-

分词器

词汇量大小

151,936

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 896 · Context: 32.8k · Vocab: 151.9kx 24 layersRMSNormPre-AttentionGrouped-Query Attention16Q / 8KV headsHead dim: 56+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 4.9k+Final RMSNormOutput Logits

Qwen2-0.5B

Qwen2-0.5B 模型是由阿里巴巴 Qwen 团队开发的大语言模型 Qwen2 系列中的一款轻量级且功能强大的模型。该模型旨在提供基础的语言处理能力,非常适合在计算资源受限的环境中进行部署。作为一款基础语言模型,其主要用途是作为一个稳健的起点,通过监督微调或人类反馈强化学习等后训练方法进行进一步的专业化开发。它旨在高效地支持多种自然语言处理任务。

关于 Qwen2

阿里巴巴 Qwen2 模型系列是基于 Transformer 架构构建的大语言模型。该系列包含稠密(dense)和混合专家(MoE)两种变体,旨在应对多样的语言任务。其技术特性包括采用分组查询注意力(Grouped Query Attention)机制,并支持高达 131,072 个 token 的扩展上下文长度,从而优化了推理过程中的内存占用。


其他 Qwen2 模型

评估基准

没有可用的 Qwen2-0.5B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

64 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU