ApX 标志ApX 标志

趋近智

Llama 4 Maverick

活跃参数

400B

上下文长度

1,000K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Llama 4 Community License Agreement

发布日期

5 Apr 2025

训练数据截止日期

Aug 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

96

键值头

8

注意力头维度

128

位置嵌入

Irope

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

12,288

层数

120

FFN 中间层大小(稠密层)

8,192

多 Token 预测头数

-

分词器

词汇量大小

202,048

混合专家

专家参数总数

17.0B

专家数量

128

活跃专家

2

共享专家数

-

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingHidden: 12.3k · Context: 1,000k · Vocab: 202kx 120 layersRMSNormPre-AttentionGrouped-Query Attention96Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (2/128 experts)Swish+Final RMSNormOutput Logits

Llama 4 Maverick

Llama 4 Maverick 模型是由 Meta 开发的一款原生多模态大语言模型,作为 Llama 4 模型系列的一部分发布。其主要目的是提供在文本和图像理解方面的先进能力,支持广泛的应用,包括助手类对话式人工智能、创意内容生成、复杂推理以及代码生成。Llama 4 Maverick 专为商业和研究部署而设计,旨在提供高质量性能的同时提升成本效益。

从架构角度看,Llama 4 Maverick 采用了混合专家(MoE)设计,这与以往的稠密 Transformer 模型有显著不同。它拥有总计 4000 亿个参数,但在推理过程中,每个 token 仅激活 170 亿个参数。这种效率是通过使用 128 个专家实现的,处理过程涉及稠密层与 MoE 层的交替。该模型通过早期融合机制集成了文本和图像等不同模态,从而能够从初始阶段进行全面的多模态处理。内部架构还集成了 iRoPE 用于管理和扩展上下文,进一步增强了其能力。

Llama 4 Maverick 在包括编码、推理、多语言任务以及长上下文处理和图像理解在内的各类基准测试中展现出强劲的性能。它是为高模型吞吐量而设计的,适用于对低延迟和高精度有严格要求的生产环境。该模型的设计便于在需要复杂多模态交互和高效资源利用的场景中部署,满足了现代人工智能应用的需求。

关于 Llama 4

Meta 的 Llama 4 模型系列采用了混合专家 (MoE) 架构,以实现高效扩展。该系列通过文本、图像和视频的早期融合,具备原生多模态能力。此次迭代还显著扩展了上下文长度,模型最高可支持处理 1000 万个 token。


其他 Llama 4 模型

评估基准

排名

#102

基准分数排名

0.949

10

通用知识

MMLU

0.855

12

0.72

21

0.319

30

0.16

31

专业知识

MMLU Pro

0.79

39

排名

排名

#102

编程排名

#125

模型完整性

总分

B+

72 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
488k
977k

所需显存:

推荐 GPU