ApX 标志ApX 标志

趋近智

Llama 3 70B

参数

70B

上下文长度

8K

模态

Text

架构

Dense

许可证

Meta Llama 3 Community License

发布日期

18 Apr 2024

训练数据截止日期

Dec 2023

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

64

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

-

激活函数

-

维度

隐藏维度大小

8,192

层数

80

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 8.2k · Context: 8Kx 80 layersNormPre-AttentionGrouped-Query Attention64Q / 8KV headsHead dim: 128+NormPre-FFNFeed-Forward NetworkActivation+Final NormOutput Logits

Llama 3 70B

Meta Llama 3 70B 是由 Meta 开发的一款拥有 700 亿参数、仅解码器(decoder-only)架构的 Transformer 语言模型。该模型于 2024 年 4 月发布,提供预训练和指令微调(instruction-fine-tuned)两种版本。其中,指令微调模型专门针对对话和助手式交互进行了优化,支持广泛的自然语言理解与生成任务,包括对话式 AI 应用、创意内容生成、代码生成、文本摘要、分类以及复杂的推理挑战。该模型根据 Meta Llama 3 社区许可协议发布,可用于商业和研究应用。

在架构方面,Llama 3 70B 采用了标准的仅解码器 Transformer 设计。其一项关键创新是分词器(tokenizer),它拥有 128,000 个标记(token)的词汇表,有助于提高语言编码效率并优化推理性能。为了进一步提升推理的可扩展性和速度,该模型集成了分组查询注意力(GQA)机制。这一注意力机制被应用于 Llama 3 的 8B 和 70B 参数版本中。模型的初始训练是在长达 8,192 个标记的序列上进行的。对于指令微调版本,则利用监督微调(SFT)和人类反馈强化学习(RLHF)来使模型输出符合人类对有用性和安全性的偏好。

Llama 3 70B 模型专为通用应用而设计,作为一种基础技术,它可以进一步适配特定领域的任务。其能力扩展到驱动高级助手功能,正如它在 Meta 旗下各平台的 Meta AI 应用中所展示的那样。该模型的设计重点是赋能开发者构建多样化的生成式 AI 应用,从复杂的编程助手到长篇文本摘要工具,同时在部署环境(包括本地、云端和离线设置)中提供控制力与灵活性。

关于 Llama 3

Meta 的 Llama 3 是一个采用仅解码器 (decoder-only) Transformer 架构的大语言模型系列。它包含一个 128K token 的词汇表,并引入了分组查询注意力 (Grouped Query Attention) 机制以实现高效处理。该系列模型在海量公开数据集上训练而成,支持多种参数规模及扩展的上下文长度。


其他 Llama 3 模型

评估基准

排名

#130

基准分数排名

Web 开发

WebDev Arena

1276

84

通用文本

Text Arena

1276

89

排名

排名

#130

编程排名

#96

模型完整性

总分

B+

70 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU