ApX 标志ApX 标志

趋近智

Llama 3.3 70B

参数

70B

上下文长度

130K

模态

Text

架构

Dense

许可证

Llama 3.3 Community License

发布日期

7 Dec 2024

训练数据截止日期

Dec 2023

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

64

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

8,192

层数

80

FFN 中间层大小(稠密层)

28,672

多 Token 预测头数

-

分词器

词汇量大小

128,256

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 8.2k · Context: 130k · Vocab: 128.3kx 80 layersRMSNormPre-AttentionGrouped-Query Attention64Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 28.7k+Final RMSNormOutput Logits

Llama 3.3 70B

Meta Llama 3.3 70B 是一款专为文本生成式应用设计的大语言模型。它采用稠密 Transformer 架构并经过优化。该模型变体针对对话进行了专门的指令微调,在多语言聊天、代码辅助及合成数据生成等场景中表现卓越。其开发过程基于约 15 万亿个 token 的公开在线数据集进行了大规模预训练。

在架构方面,Llama 3.3 70B 引入了分组查询注意力机制 (GQA),旨在提升推理的可扩展性与效率。该模型的训练方案结合了监督微调 (SFT) 与人类反馈强化学习 (RLHF),以确保输出符合人类在有用性和安全性方面的偏好。其显著特征之一是支持高达 130,000 个 token 的扩展上下文窗口,使其能够处理和生成长文本序列,适用于长文摘要和复杂多轮对话等高级应用场景。

该模型支持多语言输入与输出,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。此外,它还支持工具调用功能,允许开发人员通过自定义函数定义和集成第三方服务来扩展其功能。这种设计注重效率,旨在降低对硬件资源的需求,从而提升高质量 AI 在各类应用中的普及率。

关于 Llama 3.3

Meta 的 Llama 3.3 是一款拥有 700 亿参数的多语言大语言模型。它采用了优化的 Transformer 架构,并引入了分组查询注意力(Grouped-Query Attention)机制以提升推理效率。该模型具备扩展的 128k token 上下文窗口,且设计上支持量化,从而便于在多种硬件配置上进行部署。


其他 Llama 3.3 模型
  • 没有相关模型

评估基准

排名

#91

基准分数排名

通用知识

MMLU

0.86

11

0.895

15

0.681

23

专业知识

MMLU Pro

0.70

49

Web 开发

WebDev Arena

1320

52

排名

排名

#91

编程排名

#64

模型完整性

总分

B

69 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
127k

所需显存:

推荐 GPU

Llama 3.3 70B:规格和 GPU 显存要求