趋近智
参数
70B
上下文长度
128K
模态
Text
架构
Dense
许可证
Llama 3.1 Community License Agreement
发布日期
23 Jul 2024
训练数据截止日期
Dec 2023
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
7x RTX 4090
24GB VRAM
数据中心
2x NVIDIA A100
80GB VRAM
Apple Silicon
2x Apple M3 Max
128GB VRAM
128000 个令牌
消费级
10x RTX 4090
24GB VRAM
数据中心
3x NVIDIA A100
80GB VRAM
Apple Silicon
2x Apple M3 Max
128GB VRAM
排名
#105
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.836 | 17 |
0.598 | 24 | |
专业知识 MMLU Pro | 0.70 | 49 |
Web 开发 WebDev Arena | 1294 | 80 |
通用文本 Text Arena | 1293 | 87 |
排名
#105
编程排名
#88
Llama 3.1 70B 是由 Meta 开发的大语言模型,旨在处理广泛的自然语言处理任务。该模型变体在其前代产品的基础上进行了构建,增强了各种应用场景下的能力。其主要用途包括促进内容生成、驱动对话式 AI 系统、执行情感分析以及支持代码生成。该模型的结构设计使其适用于研究和企业环境的部署,为多样化的 AI 原生应用提供了坚实的基础。
在架构方面,Llama 3.1 70B 采用了优化的密集 Transformer 网络。该版本的一个重大技术进步是将其上下文长度扩展到了 128,000 个 token,相比之前的 Llama 3 模型有了大幅提升。这使得模型能够处理长文本输入并生成连贯的响应,从而支持需要长文本上下文理解的高级用例。此外,Llama 3.1 70B 整合了增强的多语言能力,使其能够有效地处理英语以外的多种语言,包括德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。该模型的训练采用了监督微调 (SFT) 和人类反馈强化学习 (RLHF) 等先进技术,有助于提升其指令遵循能力和上下文相关性。
在性能特性和用例方面,Llama 3.1 70B 专为大规模 AI 应用的高性能而设计。其扩展的上下文窗口和多语言支持使其适用于综合文本摘要、开发复杂的多语言对话代理以及创建编程助手等任务。该模型支持各种常见的自然语言生成任务,对于旨在将前沿 AI 技术整合到工作流中的开发人员和组织而言,它是一款功能强大的工具。
注意力
注意力结构
Grouped-Query Attention
注意力头
64
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
-
激活函数
-
维度
隐藏维度大小
8,192
层数
80
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Llama 3.1 是 Meta 推出的先进大语言模型系列,在 Llama 3 的基础上构建而成。它采用了优化的仅解码器(decoder-only)Transformer 架构,提供 8B、70B 和 405B 三种参数规模版本。其显著增强的功能包括扩展至 128K token 的上下文窗口,以及通过数据和后训练程序优化后的、涵盖八种语言的增强多语言能力。
APX AI
在线