趋近智
参数
70B
上下文长度
130K
模态
Text
架构
Dense
许可证
Llama 3.3 Community License
发布日期
7 Dec 2024
训练数据截止日期
Dec 2023
注意力结构
Grouped-Query Attention
隐藏维度大小
8192
层数
80
注意力头
64
键值头
8
激活函数
SwigLU
归一化
RMS Normalization
位置嵌入
ROPE
Meta Llama 3.3 70B 是一款专为文本生成式应用设计的大语言模型。它采用稠密 Transformer 架构并经过优化。该模型变体针对对话进行了专门的指令微调,在多语言聊天、代码辅助及合成数据生成等场景中表现卓越。其开发过程基于约 15 万亿个 token 的公开在线数据集进行了大规模预训练。
在架构方面,Llama 3.3 70B 引入了分组查询注意力机制 (GQA),旨在提升推理的可扩展性与效率。该模型的训练方案结合了监督微调 (SFT) 与人类反馈强化学习 (RLHF),以确保输出符合人类在有用性和安全性方面的偏好。其显著特征之一是支持高达 130,000 个 token 的扩展上下文窗口,使其能够处理和生成长文本序列,适用于长文摘要和复杂多轮对话等高级应用场景。
该模型支持多语言输入与输出,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。此外,它还支持工具调用功能,允许开发人员通过自定义函数定义和集成第三方服务来扩展其功能。这种设计注重效率,旨在降低对硬件资源的需求,从而提升高质量 AI 在各类应用中的普及率。
Meta 的 Llama 3.3 是一款拥有 700 亿参数的多语言大语言模型。它采用了优化的 Transformer 架构,并引入了分组查询注意力(Grouped-Query Attention)机制以提升推理效率。该模型具备扩展的 128k token 上下文窗口,且设计上支持量化,从而便于在多种硬件配置上进行部署。
排名
#73
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.86 | 10 |
QA 助手 ProLLM QA Assistant | 0.9 | 14 |
0.68 | 21 | |
专业知识 MMLU Pro | 0.70 | 44 |
Web 开发 WebDev Arena | 1320 | 48 |