趋近智
参数
8B
上下文长度
131.072K
模态
Text
架构
Dense
许可证
Llama 3.1 Community License
发布日期
23 Jul 2024
训练数据截止日期
Dec 2023
注意力结构
Grouped-Query Attention
隐藏维度大小
4096
层数
32
注意力头
32
键值头
8
激活函数
-
归一化
RMS Normalization
位置嵌入
ROPE
Llama 3.1 8B 模型是 Meta Llama 3.1 系列的组成部分,该系列是由 Meta 开发的大语言模型集合。该模型变体拥有 80 亿参数,旨在处理一系列自然语言理解与生成任务。其设计优先考虑效率和响应速度,使其适用于在计算资源受限的环境中进行部署。该模型针对对话应用进行了优化,并旨在遵循复杂指令,从而增强了其在对话代理和虚拟助手系统中的实用性。
在架构方面,Llama 3.1 8B 基于优化的 Transformer 框架构建,采用了稠密网络配置。一项显著的创新是集成了分组查询注意力(GQA),这增强了推理的可扩展性。该模型的内部机制包含 SiLU (Swish) 激活函数和 RMSNorm,以便在各层之间进行有效的归一化。位置编码通过旋转位置嵌入(RoPE)进行管理,且该架构利用 Flash Attention 来提高处理速度。该模型的训练涉及约 15 万亿个来自公开来源的令牌(token),并辅以有监督微调(SFT)和基于人类反馈的强化学习(RLHF),以使其输出符合预期的帮助性和安全性标准。此版本的一个重大改进是扩展了上下文长度,目前已增加至 128,000 个令牌。
在能力与应用方面,Llama 3.1 8B 模型精通文本摘要、文本分类和情感分析等任务,特别是在需要低延迟推理的场景中。其多语言支持涵盖八种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,便于在多元语言环境中应用。该模型还支持高级工作流,包括长文本摘要,并可用于合成数据生成和模型蒸馏等过程,以精炼更小的语言模型。
Llama 3.1 是 Meta 推出的先进大语言模型系列,在 Llama 3 的基础上构建而成。它采用了优化的仅解码器(decoder-only)Transformer 架构,提供 8B、70B 和 405B 三种参数规模版本。其显著增强的功能包括扩展至 128K token 的上下文窗口,以及通过数据和后训练程序优化后的、涵盖八种语言的增强多语言能力。
排名
#119
| 基准 | 分数 | 排名 |
|---|---|---|
0.49 | 27 | |
通用知识 MMLU | 0.69 | 29 |
Web 开发 WebDev Arena | 1211 | 73 |