ApX 标志ApX 标志

趋近智

Llama 4 Maverick

活跃参数

400B

上下文长度

1M

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Llama 4 Community License Agreement

发布日期

5 Apr 2025

训练数据截止日期

Aug 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

842.03 GB VRAM

消费级

47x RTX 4090

24GB VRAM

数据中心

13x NVIDIA A100

80GB VRAM

Apple Silicon

10x Apple M3 Max

128GB VRAM

1000000 个令牌

1357.60 GB VRAM

消费级

83x RTX 4090

24GB VRAM

数据中心

21x NVIDIA A100

80GB VRAM

Apple Silicon

17x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingHidden: 12.3k · Context: 1M · Vocab: 202kx 120 layersRMSNormPre-AttentionGrouped-Query Attention96Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (2/128 experts)Swish+Final RMSNormOutput Logits

评估基准

排名

#104

基准分数排名

0.949

10

通用知识

MMLU

0.855

12

0.72

21

0.319

30

0.16

31

专业知识

MMLU Pro

0.79

39

通用文本

Text Arena

1327

76

排名

排名

#104

编程排名

#139

关于 Llama 4 Maverick

Llama 4 Maverick 模型是由 Meta 开发的一款原生多模态大语言模型,作为 Llama 4 模型系列的一部分发布。其主要目的是提供在文本和图像理解方面的先进能力,支持广泛的应用,包括助手类对话式人工智能、创意内容生成、复杂推理以及代码生成。Llama 4 Maverick 专为商业和研究部署而设计,旨在提供高质量性能的同时提升成本效益。

从架构角度看,Llama 4 Maverick 采用了混合专家(MoE)设计,这与以往的稠密 Transformer 模型有显著不同。它拥有总计 4000 亿个参数,但在推理过程中,每个 token 仅激活 170 亿个参数。这种效率是通过使用 128 个专家实现的,处理过程涉及稠密层与 MoE 层的交替。该模型通过早期融合机制集成了文本和图像等不同模态,从而能够从初始阶段进行全面的多模态处理。内部架构还集成了 iRoPE 用于管理和扩展上下文,进一步增强了其能力。

Llama 4 Maverick 在包括编码、推理、多语言任务以及长上下文处理和图像理解在内的各类基准测试中展现出强劲的性能。它是为高模型吞吐量而设计的,适用于对低延迟和高精度有严格要求的生产环境。该模型的设计便于在需要复杂多模态交互和高效资源利用的场景中部署,满足了现代人工智能应用的需求。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

96

键值头

8

注意力头维度

128

位置嵌入

Irope

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

12,288

层数

120

FFN 中间层大小(稠密层)

8,192

多 Token 预测头数

-

分词器

词汇量大小

202,048

混合专家

专家参数总数

17.0B

专家数量

128

活跃专家

2

共享专家数

-

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

-

模型完整性

总分

B+

72 / 100

关于 Llama 4

Meta 的 Llama 4 模型系列采用了混合专家 (MoE) 架构,以实现高效扩展。该系列通过文本、图像和视频的早期融合,具备原生多模态能力。此次迭代还显著扩展了上下文长度,模型最高可支持处理 1000 万个 token。


其他 Llama 4 模型
Llama 4 Maverick:规格和 GPU 显存要求