ApX 标志ApX 标志

趋近智

Llama 3.1 8B

参数

8B

上下文长度

131K

模态

Text

架构

Dense

许可证

Llama 3.1 Community License

发布日期

23 Jul 2024

训练数据截止日期

Dec 2023

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

18.44 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

131072 个令牌

36.34 GB VRAM

消费级

2x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 131Kx 32 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkActivation+Final RMSNormOutput Logits

评估基准

排名

#143

基准分数排名

0.491

28

通用知识

MMLU

0.694

31

Web 开发

WebDev Arena

1211

96

通用文本

Text Arena

1211

98

排名

排名

#143

编程排名

#111

关于 Llama 3.1 8B

Llama 3.1 8B 模型是 Meta Llama 3.1 系列的组成部分,该系列是由 Meta 开发的大语言模型集合。该模型变体拥有 80 亿参数,旨在处理一系列自然语言理解与生成任务。其设计优先考虑效率和响应速度,使其适用于在计算资源受限的环境中进行部署。该模型针对对话应用进行了优化,并旨在遵循复杂指令,从而增强了其在对话代理和虚拟助手系统中的实用性。

在架构方面,Llama 3.1 8B 基于优化的 Transformer 框架构建,采用了稠密网络配置。一项显著的创新是集成了分组查询注意力(GQA),这增强了推理的可扩展性。该模型的内部机制包含 SiLU (Swish) 激活函数和 RMSNorm,以便在各层之间进行有效的归一化。位置编码通过旋转位置嵌入(RoPE)进行管理,且该架构利用 Flash Attention 来提高处理速度。该模型的训练涉及约 15 万亿个来自公开来源的令牌(token),并辅以有监督微调(SFT)和基于人类反馈的强化学习(RLHF),以使其输出符合预期的帮助性和安全性标准。此版本的一个重大改进是扩展了上下文长度,目前已增加至 128,000 个令牌。

在能力与应用方面,Llama 3.1 8B 模型精通文本摘要、文本分类和情感分析等任务,特别是在需要低延迟推理的场景中。其多语言支持涵盖八种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,便于在多元语言环境中应用。该模型还支持高级工作流,包括长文本摘要,并可用于合成数据生成和模型蒸馏等过程,以精炼更小的语言模型。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

-

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

模型完整性

总分

B+

74 / 100

关于 Llama 3.1

Llama 3.1 是 Meta 推出的先进大语言模型系列,在 Llama 3 的基础上构建而成。它采用了优化的仅解码器(decoder-only)Transformer 架构,提供 8B、70B 和 405B 三种参数规模版本。其显著增强的功能包括扩展至 128K token 的上下文窗口,以及通过数据和后训练程序优化后的、涵盖八种语言的增强多语言能力。


其他 Llama 3.1 模型