ApX 标志ApX 标志

趋近智

Llama 3.2 3B

参数

3B

上下文长度

128K

模态

Text

架构

Dense

许可证

Llama 3.2 Community License

发布日期

25 Sept 2024

训练数据截止日期

Dec 2023

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

24

键值头

6

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

2,048

层数

26

FFN 中间层大小(稠密层)

8,192

多 Token 预测头数

-

分词器

词汇量大小

128,256

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 128k · Vocab: 128.3kx 26 layersRMSNormPre-AttentionGrouped-Query Attention24Q / 6KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwishIntermediate: 8.2k+Final RMSNormOutput Logits

Llama 3.2 3B

Llama 3.2 3B 是由 Meta 开发的一款紧凑型、经过指令微调且仅限文本的生成式语言模型。它是 Llama 3.2 模型系列的一部分,该系列还包括 10 亿参数的文本模型以及更大规模的多模态变体。该模型专为在资源受限的环境(如边缘设备和移动设备)中进行高效部署而设计。其主要目的是通过提供摘要生成、指令遵循、重写和知识检索等任务的能力,促进可扩展的助手和智能体语言技术。该模型支持多语言交互,官方支持包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语在内的八种语言。

Llama 3.2 3B 的架构基础是自回归 Transformer。关键创新包括采用分组查询注意力(GQA)机制以增强推理的可扩展性,这种技术在不按比例增加硬件需求的情况下提高了吞吐量。训练过程涉及从更大的 Llama 变体(特别是 Llama 3.1 8B 和 70B 模型)中进行知识蒸馏,将其输出的 Logits 作为预训练期间的标记级目标,以恢复剪枝后的性能。训练后的对齐(特别是针对指令微调版本)利用了监督微调(SFT)和人类反馈强化学习(RLHF)。此外,该模型集成了先进的量化技术,对 Transformer 块权重采用 4 位组级量化,对激活值采用每标记 8 位动态量化,从而针对 PyTorch 的 ExecuTorch 框架等环境优化了运行效率。

Llama 3.2 3B 旨在设备端场景中提供稳健的性能,在计算效率与输出质量之间取得平衡。它具有 128,000 个标记的扩展上下文窗口,能够处理文档摘要和长对话等任务的长输入。虽然全精度模型支持这一上下文长度,但量化版本通常配置为 8,000 个标记的上下文。该模型的设计优先考虑低延迟推理,使其适用于需要快速响应且在有限计算资源下运行的应用,如移动端 AI 写作助手和客户服务应用。预训练变体还为跨各种自然语言生成任务的进一步微调奠定了基础。

关于 Llama 3.2

Meta 的 Llama 3.2 系列推出了视觉模型,通过将图像编码器与语言模型集成,实现了多模态文本和图像处理。该系列还包含针对高效端侧部署优化的轻量化版本,并支持扩展至 128K token 的上下文长度。


其他 Llama 3.2 模型

评估基准

排名

#138

基准分数排名

通用知识

MMLU

0.634

34

Web 开发

WebDev Arena

1166

85

排名

排名

#138

编程排名

#108

模型完整性

总分

B+

72 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU