ApX 标志ApX 标志

趋近智

Llama 3.1 8B

参数

8B

上下文长度

131.072K

模态

Text

架构

Dense

许可证

Llama 3.1 Community License

发布日期

23 Jul 2024

训练数据截止日期

Dec 2023

技术规格

注意力结构

Grouped-Query Attention

隐藏维度大小

4096

层数

32

注意力头

32

键值头

8

激活函数

-

归一化

RMS Normalization

位置嵌入

ROPE

Llama 3.1 8B

Llama 3.1 8B 模型是 Meta Llama 3.1 系列的组成部分,该系列是由 Meta 开发的大语言模型集合。该模型变体拥有 80 亿参数,旨在处理一系列自然语言理解与生成任务。其设计优先考虑效率和响应速度,使其适用于在计算资源受限的环境中进行部署。该模型针对对话应用进行了优化,并旨在遵循复杂指令,从而增强了其在对话代理和虚拟助手系统中的实用性。

在架构方面,Llama 3.1 8B 基于优化的 Transformer 框架构建,采用了稠密网络配置。一项显著的创新是集成了分组查询注意力(GQA),这增强了推理的可扩展性。该模型的内部机制包含 SiLU (Swish) 激活函数和 RMSNorm,以便在各层之间进行有效的归一化。位置编码通过旋转位置嵌入(RoPE)进行管理,且该架构利用 Flash Attention 来提高处理速度。该模型的训练涉及约 15 万亿个来自公开来源的令牌(token),并辅以有监督微调(SFT)和基于人类反馈的强化学习(RLHF),以使其输出符合预期的帮助性和安全性标准。此版本的一个重大改进是扩展了上下文长度,目前已增加至 128,000 个令牌。

在能力与应用方面,Llama 3.1 8B 模型精通文本摘要、文本分类和情感分析等任务,特别是在需要低延迟推理的场景中。其多语言支持涵盖八种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,便于在多元语言环境中应用。该模型还支持高级工作流,包括长文本摘要,并可用于合成数据生成和模型蒸馏等过程,以精炼更小的语言模型。

关于 Llama 3.1

Llama 3.1 是 Meta 推出的先进大语言模型系列,在 Llama 3 的基础上构建而成。它采用了优化的仅解码器(decoder-only)Transformer 架构,提供 8B、70B 和 405B 三种参数规模版本。其显著增强的功能包括扩展至 128K token 的上下文窗口,以及通过数据和后训练程序优化后的、涵盖八种语言的增强多语言能力。


其他 Llama 3.1 模型

评估基准

排名

#119

基准分数排名

0.49

27

通用知识

MMLU

0.69

29

Web 开发

WebDev Arena

1211

73

排名

排名

#119

编程排名

#92

模型透明度

总分

B+

74 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU