ApX 标志ApX 标志

趋近智

Llama 4 Scout

活跃参数

109B

上下文长度

10,000K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Llama 4 Community License Agreement

发布日期

6 Apr 2025

训练数据截止日期

Aug 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

64

键值头

8

注意力头维度

128

位置嵌入

Irope

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

8,192

层数

80

FFN 中间层大小(稠密层)

8,192

多 Token 预测头数

-

分词器

词汇量大小

202,048

混合专家

专家参数总数

-

专家数量

16

活跃专家

2

共享专家数

-

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingHidden: 8.2k · Context: 10,000k · Vocab: 202kx 80 layersRMSNormPre-AttentionGrouped-Query Attention64Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (2/16 experts)Swish+Final RMSNormOutput Logits

Llama 4 Scout

Llama 4 Scout 是 Meta 于 2025 年 4 月 5 日发布的 Llama 4 系列模型中的核心产品。它旨在为研究人员和机构提供强大的人工智能能力,同时兼顾实际的硬件限制。作为一款通用模型,Llama 4 Scout 具备原生多模态能力,能够熟练处理文本和图像输入。其应用涵盖了广泛的任务,包括复杂的对话交互、详细的图像分析以及高级代码生成。该模型的设计重点是在多样化的计算环境中实现这些任务的高效执行。

在架构方面,Llama 4 Scout 采用了混合专家(MoE)配置,包含 1090 亿个总参数,在 16 个专家中,每个 token 激活 170 亿个参数。其设计中的一项重大创新是处于行业领先地位的上下文窗口,支持高达 1000 万个 token,这较之前的版本有了大幅提升。该模型在其原生多模态中集成了早期融合(early fusion)方法,将其基础结构中的文本和视觉 token 进行了统一。为了优化部署效率,在利用 Int4 量化时,Llama 4 Scout 可以在单张 NVIDIA H100 GPU 上运行。此外,其架构融合了交错注意力层,特别是 iRoPE,以增强在长序列上的泛化能力。

Llama 4 Scout 非常适合需要处理和分析海量信息的应用。其主要用例包括多文档摘要、用于个性化的用户活动详细分析以及对大规模代码库的推理。该模型在需要文档问答、精准信息检索和可靠来源溯源的任务中表现强劲,使其在专业文档分析中极具价值。其针对单 GPU 效率的设计提升了不同计算基础设施规模的机构的可访问性。该模型还支持多语言任务,已在 200 种语言的数据上进行了训练,并具备针对 12 种特定语言的微调能力。

关于 Llama 4

Meta 的 Llama 4 模型系列采用了混合专家 (MoE) 架构,以实现高效扩展。该系列通过文本、图像和视频的早期融合,具备原生多模态能力。此次迭代还显著扩展了上下文长度,模型最高可支持处理 1000 万个 token。


其他 Llama 4 模型

评估基准

排名

#122

基准分数排名

0.873

17

0.684

22

通用知识

MMLU

0.796

23

0.16

33

专业知识

MMLU Pro

0.70

51

排名

排名

#122

编程排名

#117

模型完整性

总分

C+

59 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4883k
9766k

所需显存:

推荐 GPU