趋近智
参数
1B
上下文长度
128K
模态
Text
架构
Dense
许可证
Llama 3.2 Community License
发布日期
25 Sept 2024
训练数据截止日期
Dec 2023
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
1x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
128000 个令牌
消费级
1x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
排名
#160
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1111 | 107 |
通用文本 Text Arena | 1110 | 109 |
排名
#160
编程排名
#131
Meta Llama 3.2 1B 是由 Meta 开发的基础大语言模型,专门针对边缘和移动设备的部署进行了优化。该模型变体旨在提高效率,能够在较低的计算资源需求下本地执行语言处理任务。其主要目的是助力需要自然语言理解和生成的端侧应用,使其适用于资源受限的环境。
该模型的架构基于优化的 Transformer,采用仅解码器(decoder-only)结构,用于处理文本输入并生成文本输出。它采用了分组查询注意力(GQA)机制以增强推理可扩展性,该技术通过在多个查询头之间共享键(Key)和值(Value)张量来减少内存带宽占用。模型中的位置编码使用了旋转位置嵌入(RoPE),将位置信息集成到注意力机制中。Llama 3.2 1B 模型在多达 9 万亿个标记(token)的海量公开数据集上进行了训练。其开发过程涉及剪枝(pruning)以减小模型规模,以及知识蒸馏(knowledge distillation)技术——在预训练期间引入更大规模 Llama 3.1 模型(8B 和 70B)的 Logits,以恢复并增强性能。
这款拥有 12.3 亿参数的模型支持 128,000 个标记的上下文长度,使其能够处理各种应用中的长输入序列。Llama 3.2 1B 模型的典型用例包括直接在边缘设备上进行摘要生成、指令遵循、改写任务、个人信息管理以及多语言知识检索。它支持多种语言的文本生成,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
注意力
注意力结构
Grouped-Query Attention
注意力头
16
键值头
4
注意力头维度
64
位置嵌入
ROPE
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
1,024
层数
16
FFN 中间层大小(稠密层)
8,192
多 Token 预测头数
-
分词器
词汇量大小
128,256
Meta 的 Llama 3.2 系列推出了视觉模型,通过将图像编码器与语言模型集成,实现了多模态文本和图像处理。该系列还包含针对高效端侧部署优化的轻量化版本,并支持扩展至 128K token 的上下文长度。
APX AI
在线