ApX 标志ApX 标志

趋近智

Grok 4

参数

1.7T

上下文长度

256K

模态

Multimodal

架构

Dense

许可证

Proprietary

发布日期

9 Jul 2025

训练数据截止日期

Dec 2024

技术规格

注意力结构

Multi-Head Attention

隐藏维度大小

-

层数

-

注意力头

-

键值头

-

激活函数

-

归一化

RMS Normalization

位置嵌入

Absolute Position Embedding

Grok 4

Grok 4 是 xAI 最智能的模型,利用拥有 20 万块 GPU 的 Colossus 集群,通过前所未有的超大规模强化学习训练而成。该模型具备原生工具调用能力,内置代码解释器和网页浏览功能,并整合了 X 平台与互联网的实时搜索。它在 Humanity's Last Exam 评估中展现出顶尖性能(工具辅助下的纯文本子集得分为 50.7%);在 AIME 2025 中达到 100%,在 HMMT 2025 中达到 99.4%,在 ARC-AGI-2 中达到 15.9%,并在 Vending-Bench 中以 4694.15 美元的净值占据主导地位。该模型支持 256K 上下文窗口及多模态理解,并可通过 API 提供先进的推理、编程和视觉处理能力。

关于 Grok 4

xAI 的前沿智能模型,利用拥有 20 万个 GPU 的 Colossus 集群,以史无前例的规模通过强化学习训练而成。Grok 4 系列在推理、编程和多模态理解方面展现了顶尖性能,并具备原生工具调用能力。其特点包括集成 X 平台和互联网的实时搜索功能,通过大规模强化学习(RL)训练实现的先进推理能力,以及在学术基准测试中行业领先的表现。该系列专为即时响应和具备视觉能力的深度思考模式而设计。


其他 Grok 4 模型

评估基准

排名

#13

基准分数排名

0.99

🥇

1

0.98

🥇

1

0.89

🥈

2

0.80

6

研究生级问答

GPQA

0.88

6

0.79

14

0.83

16

0.63

16

专业知识

MMLU Pro

0.85

16

0.73

24

智能编程

LiveBench Agentic

0.30

42

排名

排名

#13

编程排名

#14

模型透明度

总分

D

39 / 100