趋近智
参数
1B
上下文长度
128K
模态
Text
架构
Dense
许可证
Llama 3.2 Community License
发布日期
25 Sept 2024
训练数据截止日期
Dec 2023
注意力
注意力结构
Grouped-Query Attention
注意力头
16
键值头
4
注意力头维度
64
位置嵌入
ROPE
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
1,024
层数
16
FFN 中间层大小(稠密层)
8,192
多 Token 预测头数
-
分词器
词汇量大小
128,256
Meta Llama 3.2 1B 是由 Meta 开发的基础大语言模型,专门针对边缘和移动设备的部署进行了优化。该模型变体旨在提高效率,能够在较低的计算资源需求下本地执行语言处理任务。其主要目的是助力需要自然语言理解和生成的端侧应用,使其适用于资源受限的环境。
该模型的架构基于优化的 Transformer,采用仅解码器(decoder-only)结构,用于处理文本输入并生成文本输出。它采用了分组查询注意力(GQA)机制以增强推理可扩展性,该技术通过在多个查询头之间共享键(Key)和值(Value)张量来减少内存带宽占用。模型中的位置编码使用了旋转位置嵌入(RoPE),将位置信息集成到注意力机制中。Llama 3.2 1B 模型在多达 9 万亿个标记(token)的海量公开数据集上进行了训练。其开发过程涉及剪枝(pruning)以减小模型规模,以及知识蒸馏(knowledge distillation)技术——在预训练期间引入更大规模 Llama 3.1 模型(8B 和 70B)的 Logits,以恢复并增强性能。
这款拥有 12.3 亿参数的模型支持 128,000 个标记的上下文长度,使其能够处理各种应用中的长输入序列。Llama 3.2 1B 模型的典型用例包括直接在边缘设备上进行摘要生成、指令遵循、改写任务、个人信息管理以及多语言知识检索。它支持多种语言的文本生成,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
Meta 的 Llama 3.2 系列推出了视觉模型,通过将图像编码器与语言模型集成,实现了多模态文本和图像处理。该系列还包含针对高效端侧部署优化的轻量化版本,并支持扩展至 128K token 的上下文长度。
排名
#154
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1111 | 89 |
APX AI
在线