趋近智
参数
70B
上下文长度
8K
模态
Text
架构
Dense
许可证
Meta Llama 3 Community License
发布日期
18 Apr 2024
训练数据截止日期
Dec 2023
注意力
注意力结构
Grouped-Query Attention
注意力头
64
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
-
激活函数
-
维度
隐藏维度大小
8,192
层数
80
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Meta Llama 3 70B 是由 Meta 开发的一款拥有 700 亿参数、仅解码器(decoder-only)架构的 Transformer 语言模型。该模型于 2024 年 4 月发布,提供预训练和指令微调(instruction-fine-tuned)两种版本。其中,指令微调模型专门针对对话和助手式交互进行了优化,支持广泛的自然语言理解与生成任务,包括对话式 AI 应用、创意内容生成、代码生成、文本摘要、分类以及复杂的推理挑战。该模型根据 Meta Llama 3 社区许可协议发布,可用于商业和研究应用。
在架构方面,Llama 3 70B 采用了标准的仅解码器 Transformer 设计。其一项关键创新是分词器(tokenizer),它拥有 128,000 个标记(token)的词汇表,有助于提高语言编码效率并优化推理性能。为了进一步提升推理的可扩展性和速度,该模型集成了分组查询注意力(GQA)机制。这一注意力机制被应用于 Llama 3 的 8B 和 70B 参数版本中。模型的初始训练是在长达 8,192 个标记的序列上进行的。对于指令微调版本,则利用监督微调(SFT)和人类反馈强化学习(RLHF)来使模型输出符合人类对有用性和安全性的偏好。
Llama 3 70B 模型专为通用应用而设计,作为一种基础技术,它可以进一步适配特定领域的任务。其能力扩展到驱动高级助手功能,正如它在 Meta 旗下各平台的 Meta AI 应用中所展示的那样。该模型的设计重点是赋能开发者构建多样化的生成式 AI 应用,从复杂的编程助手到长篇文本摘要工具,同时在部署环境(包括本地、云端和离线设置)中提供控制力与灵活性。
Meta 的 Llama 3 是一个采用仅解码器 (decoder-only) Transformer 架构的大语言模型系列。它包含一个 128K token 的词汇表,并引入了分组查询注意力 (Grouped Query Attention) 机制以实现高效处理。该系列模型在海量公开数据集上训练而成,支持多种参数规模及扩展的上下文长度。
排名
#130
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1276 | 84 |
通用文本 Text Arena | 1276 | 89 |
APX AI
在线