趋近智
参数
3B
上下文长度
128K
模态
Text
架构
Dense
许可证
Llama 3.2 Community License
发布日期
25 Sept 2024
训练数据截止日期
Dec 2023
注意力
注意力结构
Grouped-Query Attention
注意力头
24
键值头
6
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
2,048
层数
26
FFN 中间层大小(稠密层)
8,192
多 Token 预测头数
-
分词器
词汇量大小
128,256
Llama 3.2 3B 是由 Meta 开发的一款紧凑型、经过指令微调且仅限文本的生成式语言模型。它是 Llama 3.2 模型系列的一部分,该系列还包括 10 亿参数的文本模型以及更大规模的多模态变体。该模型专为在资源受限的环境(如边缘设备和移动设备)中进行高效部署而设计。其主要目的是通过提供摘要生成、指令遵循、重写和知识检索等任务的能力,促进可扩展的助手和智能体语言技术。该模型支持多语言交互,官方支持包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语在内的八种语言。
Llama 3.2 3B 的架构基础是自回归 Transformer。关键创新包括采用分组查询注意力(GQA)机制以增强推理的可扩展性,这种技术在不按比例增加硬件需求的情况下提高了吞吐量。训练过程涉及从更大的 Llama 变体(特别是 Llama 3.1 8B 和 70B 模型)中进行知识蒸馏,将其输出的 Logits 作为预训练期间的标记级目标,以恢复剪枝后的性能。训练后的对齐(特别是针对指令微调版本)利用了监督微调(SFT)和人类反馈强化学习(RLHF)。此外,该模型集成了先进的量化技术,对 Transformer 块权重采用 4 位组级量化,对激活值采用每标记 8 位动态量化,从而针对 PyTorch 的 ExecuTorch 框架等环境优化了运行效率。
Llama 3.2 3B 旨在设备端场景中提供稳健的性能,在计算效率与输出质量之间取得平衡。它具有 128,000 个标记的扩展上下文窗口,能够处理文档摘要和长对话等任务的长输入。虽然全精度模型支持这一上下文长度,但量化版本通常配置为 8,000 个标记的上下文。该模型的设计优先考虑低延迟推理,使其适用于需要快速响应且在有限计算资源下运行的应用,如移动端 AI 写作助手和客户服务应用。预训练变体还为跨各种自然语言生成任务的进一步微调奠定了基础。
Meta 的 Llama 3.2 系列推出了视觉模型,通过将图像编码器与语言模型集成,实现了多模态文本和图像处理。该系列还包含针对高效端侧部署优化的轻量化版本,并支持扩展至 128K token 的上下文长度。
排名
#138
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.634 | 34 |
Web 开发 WebDev Arena | 1166 | 85 |
APX AI
在线