趋近智
活跃参数
400B
上下文长度
1M
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
Llama 4 Community License Agreement
发布日期
5 Apr 2025
训练数据截止日期
Aug 2024
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
47x RTX 4090
24GB VRAM
数据中心
13x NVIDIA A100
80GB VRAM
Apple Silicon
10x Apple M3 Max
128GB VRAM
1000000 个令牌
消费级
83x RTX 4090
24GB VRAM
数据中心
21x NVIDIA A100
80GB VRAM
Apple Silicon
17x Apple M3 Max
128GB VRAM
排名
#104
| 基准 | 分数 | 排名 |
|---|---|---|
QA 助手 ProLLM QA Assistant | 0.949 | 10 |
通用知识 MMLU | 0.855 | 12 |
0.72 | 21 | |
StackUnseen ProLLM Stack Unseen | 0.319 | 30 |
0.16 | 31 | |
专业知识 MMLU Pro | 0.79 | 39 |
通用文本 Text Arena | 1327 | 76 |
排名
#104
编程排名
#139
Llama 4 Maverick 模型是由 Meta 开发的一款原生多模态大语言模型,作为 Llama 4 模型系列的一部分发布。其主要目的是提供在文本和图像理解方面的先进能力,支持广泛的应用,包括助手类对话式人工智能、创意内容生成、复杂推理以及代码生成。Llama 4 Maverick 专为商业和研究部署而设计,旨在提供高质量性能的同时提升成本效益。
从架构角度看,Llama 4 Maverick 采用了混合专家(MoE)设计,这与以往的稠密 Transformer 模型有显著不同。它拥有总计 4000 亿个参数,但在推理过程中,每个 token 仅激活 170 亿个参数。这种效率是通过使用 128 个专家实现的,处理过程涉及稠密层与 MoE 层的交替。该模型通过早期融合机制集成了文本和图像等不同模态,从而能够从初始阶段进行全面的多模态处理。内部架构还集成了 iRoPE 用于管理和扩展上下文,进一步增强了其能力。
Llama 4 Maverick 在包括编码、推理、多语言任务以及长上下文处理和图像理解在内的各类基准测试中展现出强劲的性能。它是为高模型吞吐量而设计的,适用于对低延迟和高精度有严格要求的生产环境。该模型的设计便于在需要复杂多模态交互和高效资源利用的场景中部署,满足了现代人工智能应用的需求。
注意力
注意力结构
Grouped-Query Attention
注意力头
96
键值头
8
注意力头维度
128
位置嵌入
Irope
RoPE Theta
500,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
12,288
层数
120
FFN 中间层大小(稠密层)
8,192
多 Token 预测头数
-
分词器
词汇量大小
202,048
混合专家
专家参数总数
17.0B
专家数量
128
活跃专家
2
共享专家数
-
FFN 中间层大小(每专家)
-
MoE 前的稠密层数
-
Meta 的 Llama 4 模型系列采用了混合专家 (MoE) 架构,以实现高效扩展。该系列通过文本、图像和视频的早期融合,具备原生多模态能力。此次迭代还显著扩展了上下文长度,模型最高可支持处理 1000 万个 token。
APX AI
在线