ApX 标志ApX 标志

趋近智

Llama 3 8B

参数

8B

上下文长度

8.192K

模态

Text

架构

Dense

许可证

Meta Llama 3 Community License Agreement

发布日期

18 Apr 2024

训练数据截止日期

Mar 2023

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 8.2kx 32 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLU+Final RMSNormOutput Logits

Llama 3 8B

Meta Llama 3 是由 Meta AI 开发的基础大语言模型,旨在支持各种应用场景下的高级文本和代码生成。该模型提供多种参数规模,包括 80 亿(8B)参数版本,并提供预训练和指令微调两种形式。其架构专为人工智能系统的可扩展性和负责任部署而设计,支持从助手类对话代理到复杂的自然语言处理研究任务等多种用例。

该模型采用仅解码器(decoder-only)的 Transformer 架构,并在其前代产品的基础上进行了多项技术增强。关键创新包括一个拥有 128,000 个词汇量的优化分词器(tokenizer),这有助于提高语言编码效率。此外,该模型在其 8B 和 70B 参数版本中均集成了分组查询注意力(GQA)机制,旨在提高推理效率。为了增强训练稳定性,Llama 3 采用了前置归一化的均方根归一化(RMSNorm)技术,并使用了 SwiGLU 激活函数。模型内部的位置编码则通过旋转位置嵌入(RoPE)进行处理。

Llama 3 8B 在超过 15 万亿 token 的海量语料库上进行了预训练,这些数据源自公开数据集,与之前的 Llama 版本相比,训练数据量大幅增加。该模型支持 8,192 个 token 的上下文长度。它在生成连贯文本、辅助代码补全以及执行对话任务方面表现出色,其能力在后续版本(如 Llama 3.1)中进一步扩展到了多语言支持和工具调用。

关于 Llama 3

Meta 的 Llama 3 是一个采用仅解码器 (decoder-only) Transformer 架构的大语言模型系列。它包含一个 128K token 的词汇表,并引入了分组查询注意力 (Grouped Query Attention) 机制以实现高效处理。该系列模型在海量公开数据集上训练而成,支持多种参数规模及扩展的上下文长度。


其他 Llama 3 模型

评估基准

排名

#148

基准分数排名

Web 开发

WebDev Arena

1223

94

通用文本

Text Arena

1223

97

排名

排名

#148

编程排名

#110

模型完整性

总分

B

69 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU