趋近智
参数
8B
上下文长度
131K
模态
Text
架构
Dense
许可证
Llama 3.1 Community License
发布日期
23 Jul 2024
训练数据截止日期
Dec 2023
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
1x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
131072 个令牌
消费级
2x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
排名
#143
| 基准 | 分数 | 排名 |
|---|---|---|
0.491 | 28 | |
通用知识 MMLU | 0.694 | 31 |
Web 开发 WebDev Arena | 1211 | 96 |
通用文本 Text Arena | 1211 | 98 |
排名
#143
编程排名
#111
Llama 3.1 8B 模型是 Meta Llama 3.1 系列的组成部分,该系列是由 Meta 开发的大语言模型集合。该模型变体拥有 80 亿参数,旨在处理一系列自然语言理解与生成任务。其设计优先考虑效率和响应速度,使其适用于在计算资源受限的环境中进行部署。该模型针对对话应用进行了优化,并旨在遵循复杂指令,从而增强了其在对话代理和虚拟助手系统中的实用性。
在架构方面,Llama 3.1 8B 基于优化的 Transformer 框架构建,采用了稠密网络配置。一项显著的创新是集成了分组查询注意力(GQA),这增强了推理的可扩展性。该模型的内部机制包含 SiLU (Swish) 激活函数和 RMSNorm,以便在各层之间进行有效的归一化。位置编码通过旋转位置嵌入(RoPE)进行管理,且该架构利用 Flash Attention 来提高处理速度。该模型的训练涉及约 15 万亿个来自公开来源的令牌(token),并辅以有监督微调(SFT)和基于人类反馈的强化学习(RLHF),以使其输出符合预期的帮助性和安全性标准。此版本的一个重大改进是扩展了上下文长度,目前已增加至 128,000 个令牌。
在能力与应用方面,Llama 3.1 8B 模型精通文本摘要、文本分类和情感分析等任务,特别是在需要低延迟推理的场景中。其多语言支持涵盖八种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,便于在多元语言环境中应用。该模型还支持高级工作流,包括长文本摘要,并可用于合成数据生成和模型蒸馏等过程,以精炼更小的语言模型。
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
-
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Llama 3.1 是 Meta 推出的先进大语言模型系列,在 Llama 3 的基础上构建而成。它采用了优化的仅解码器(decoder-only)Transformer 架构,提供 8B、70B 和 405B 三种参数规模版本。其显著增强的功能包括扩展至 128K token 的上下文窗口,以及通过数据和后训练程序优化后的、涵盖八种语言的增强多语言能力。
APX AI
在线