ApX 标志ApX 标志

趋近智

Llama 3.2 1B

参数

1B

上下文长度

128K

模态

Text

架构

Dense

许可证

Llama 3.2 Community License

发布日期

25 Sept 2024

训练数据截止日期

Dec 2023

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

16

键值头

4

注意力头维度

64

位置嵌入

ROPE

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

1,024

层数

16

FFN 中间层大小(稠密层)

8,192

多 Token 预测头数

-

分词器

词汇量大小

128,256

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 1k · Context: 128k · Vocab: 128.3kx 16 layersRMSNormPre-AttentionGrouped-Query Attention16Q / 4KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 8.2k+Final RMSNormOutput Logits

Llama 3.2 1B

Meta Llama 3.2 1B 是由 Meta 开发的基础大语言模型,专门针对边缘和移动设备的部署进行了优化。该模型变体旨在提高效率,能够在较低的计算资源需求下本地执行语言处理任务。其主要目的是助力需要自然语言理解和生成的端侧应用,使其适用于资源受限的环境。

该模型的架构基于优化的 Transformer,采用仅解码器(decoder-only)结构,用于处理文本输入并生成文本输出。它采用了分组查询注意力(GQA)机制以增强推理可扩展性,该技术通过在多个查询头之间共享键(Key)和值(Value)张量来减少内存带宽占用。模型中的位置编码使用了旋转位置嵌入(RoPE),将位置信息集成到注意力机制中。Llama 3.2 1B 模型在多达 9 万亿个标记(token)的海量公开数据集上进行了训练。其开发过程涉及剪枝(pruning)以减小模型规模,以及知识蒸馏(knowledge distillation)技术——在预训练期间引入更大规模 Llama 3.1 模型(8B 和 70B)的 Logits,以恢复并增强性能。

这款拥有 12.3 亿参数的模型支持 128,000 个标记的上下文长度,使其能够处理各种应用中的长输入序列。Llama 3.2 1B 模型的典型用例包括直接在边缘设备上进行摘要生成、指令遵循、改写任务、个人信息管理以及多语言知识检索。它支持多种语言的文本生成,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

关于 Llama 3.2

Meta 的 Llama 3.2 系列推出了视觉模型,通过将图像编码器与语言模型集成,实现了多模态文本和图像处理。该系列还包含针对高效端侧部署优化的轻量化版本,并支持扩展至 128K token 的上下文长度。


其他 Llama 3.2 模型

评估基准

排名

#154

基准分数排名

Web 开发

WebDev Arena

1111

89

排名

排名

#154

编程排名

#116

模型完整性

总分

B+

71 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU

Llama 3.2 1B:规格和 GPU 显存要求