趋近智
参数
8B
上下文长度
8.192K
模态
Text
架构
Dense
许可证
Meta Llama 3 Community License Agreement
发布日期
18 Apr 2024
训练数据截止日期
Mar 2023
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Meta Llama 3 是由 Meta AI 开发的基础大语言模型,旨在支持各种应用场景下的高级文本和代码生成。该模型提供多种参数规模,包括 80 亿(8B)参数版本,并提供预训练和指令微调两种形式。其架构专为人工智能系统的可扩展性和负责任部署而设计,支持从助手类对话代理到复杂的自然语言处理研究任务等多种用例。
该模型采用仅解码器(decoder-only)的 Transformer 架构,并在其前代产品的基础上进行了多项技术增强。关键创新包括一个拥有 128,000 个词汇量的优化分词器(tokenizer),这有助于提高语言编码效率。此外,该模型在其 8B 和 70B 参数版本中均集成了分组查询注意力(GQA)机制,旨在提高推理效率。为了增强训练稳定性,Llama 3 采用了前置归一化的均方根归一化(RMSNorm)技术,并使用了 SwiGLU 激活函数。模型内部的位置编码则通过旋转位置嵌入(RoPE)进行处理。
Llama 3 8B 在超过 15 万亿 token 的海量语料库上进行了预训练,这些数据源自公开数据集,与之前的 Llama 版本相比,训练数据量大幅增加。该模型支持 8,192 个 token 的上下文长度。它在生成连贯文本、辅助代码补全以及执行对话任务方面表现出色,其能力在后续版本(如 Llama 3.1)中进一步扩展到了多语言支持和工具调用。
Meta 的 Llama 3 是一个采用仅解码器 (decoder-only) Transformer 架构的大语言模型系列。它包含一个 128K token 的词汇表,并引入了分组查询注意力 (Grouped Query Attention) 机制以实现高效处理。该系列模型在海量公开数据集上训练而成,支持多种参数规模及扩展的上下文长度。
排名
#148
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1223 | 94 |
通用文本 Text Arena | 1223 | 97 |
APX AI
在线