ApX 标志ApX 标志

趋近智

Llama 3.2 1B

参数

1B

上下文长度

128K

模态

Text

架构

Dense

许可证

Llama 3.2 Community License

发布日期

25 Sept 2024

训练数据截止日期

Dec 2023

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

3.62 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

128000 个令牌

5.80 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 1k · Context: 128K · Vocab: 128.3kx 16 layersRMSNormPre-AttentionGrouped-Query Attention16Q / 4KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 8.2k+Final RMSNormOutput Logits

评估基准

排名

#160

基准分数排名

Web 开发

WebDev Arena

1111

107

通用文本

Text Arena

1110

109

排名

排名

#160

编程排名

#131

关于 Llama 3.2 1B

Meta Llama 3.2 1B 是由 Meta 开发的基础大语言模型,专门针对边缘和移动设备的部署进行了优化。该模型变体旨在提高效率,能够在较低的计算资源需求下本地执行语言处理任务。其主要目的是助力需要自然语言理解和生成的端侧应用,使其适用于资源受限的环境。

该模型的架构基于优化的 Transformer,采用仅解码器(decoder-only)结构,用于处理文本输入并生成文本输出。它采用了分组查询注意力(GQA)机制以增强推理可扩展性,该技术通过在多个查询头之间共享键(Key)和值(Value)张量来减少内存带宽占用。模型中的位置编码使用了旋转位置嵌入(RoPE),将位置信息集成到注意力机制中。Llama 3.2 1B 模型在多达 9 万亿个标记(token)的海量公开数据集上进行了训练。其开发过程涉及剪枝(pruning)以减小模型规模,以及知识蒸馏(knowledge distillation)技术——在预训练期间引入更大规模 Llama 3.1 模型(8B 和 70B)的 Logits,以恢复并增强性能。

这款拥有 12.3 亿参数的模型支持 128,000 个标记的上下文长度,使其能够处理各种应用中的长输入序列。Llama 3.2 1B 模型的典型用例包括直接在边缘设备上进行摘要生成、指令遵循、改写任务、个人信息管理以及多语言知识检索。它支持多种语言的文本生成,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

16

键值头

4

注意力头维度

64

位置嵌入

ROPE

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

1,024

层数

16

FFN 中间层大小(稠密层)

8,192

多 Token 预测头数

-

分词器

词汇量大小

128,256

模型完整性

总分

B+

71 / 100

关于 Llama 3.2

Meta 的 Llama 3.2 系列推出了视觉模型,通过将图像编码器与语言模型集成,实现了多模态文本和图像处理。该系列还包含针对高效端侧部署优化的轻量化版本,并支持扩展至 128K token 的上下文长度。


其他 Llama 3.2 模型