ApX 标志ApX 标志

趋近智

Llama 3.3 70B

参数

70B

上下文长度

130K

模态

Text

架构

Dense

许可证

Llama 3.3 Community License

发布日期

7 Dec 2024

训练数据截止日期

Dec 2023

技术规格

注意力结构

Grouped-Query Attention

隐藏维度大小

8192

层数

80

注意力头

64

键值头

8

激活函数

SwigLU

归一化

RMS Normalization

位置嵌入

ROPE

Llama 3.3 70B

Meta Llama 3.3 70B 是一款专为文本生成式应用设计的大语言模型。它采用稠密 Transformer 架构并经过优化。该模型变体针对对话进行了专门的指令微调,在多语言聊天、代码辅助及合成数据生成等场景中表现卓越。其开发过程基于约 15 万亿个 token 的公开在线数据集进行了大规模预训练。

在架构方面,Llama 3.3 70B 引入了分组查询注意力机制 (GQA),旨在提升推理的可扩展性与效率。该模型的训练方案结合了监督微调 (SFT) 与人类反馈强化学习 (RLHF),以确保输出符合人类在有用性和安全性方面的偏好。其显著特征之一是支持高达 130,000 个 token 的扩展上下文窗口,使其能够处理和生成长文本序列,适用于长文摘要和复杂多轮对话等高级应用场景。

该模型支持多语言输入与输出,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。此外,它还支持工具调用功能,允许开发人员通过自定义函数定义和集成第三方服务来扩展其功能。这种设计注重效率,旨在降低对硬件资源的需求,从而提升高质量 AI 在各类应用中的普及率。

关于 Llama 3.3

Meta 的 Llama 3.3 是一款拥有 700 亿参数的多语言大语言模型。它采用了优化的 Transformer 架构,并引入了分组查询注意力(Grouped-Query Attention)机制以提升推理效率。该模型具备扩展的 128k token 上下文窗口,且设计上支持量化,从而便于在多种硬件配置上进行部署。


其他 Llama 3.3 模型
  • 没有相关模型

评估基准

排名

#73

基准分数排名

通用知识

MMLU

0.86

10

0.9

14

0.68

21

专业知识

MMLU Pro

0.70

44

Web 开发

WebDev Arena

1320

48

排名

排名

#73

编程排名

#61

模型透明度

总分

B

69 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
127k

所需显存:

推荐 GPU