Grok 4

闭源

封闭权重

参数

1.7T

上下文长度

256K

模态

Multimodal

架构

Dense

许可证

Proprietary

发布日期

9 Jul 2025

训练数据截止日期

Dec 2024

评估基准

排名

#24

基准	分数	排名
QA 助手 ProLLM QA Assistant	0.985	🥇 1
文本摘要 ProLLM Summarization	0.976	🥉 3
StackUnseen ProLLM Stack Unseen	0.886	5
编程 Aider Coding	0.80	6
研究生级问答 GPQA	0.875	6
推理 LiveBench Reasoning	0.79	16
数据分析 LiveBench Data Analysis	0.63	17
数学 LiveBench Mathematics	0.83	18
专业知识 MMLU Pro	0.85	19
编程 LiveBench Coding	0.73	28
智能编程 LiveBench Agentic	0.30	45

排名

#24

编程排名

#12

关于 Grok 4

Grok 4 是 xAI 最智能的模型，利用拥有 20 万块 GPU 的 Colossus 集群，通过前所未有的超大规模强化学习训练而成。该模型具备原生工具调用能力，内置代码解释器和网页浏览功能，并整合了 X 平台与互联网的实时搜索。它在 Humanity's Last Exam 评估中展现出顶尖性能（工具辅助下的纯文本子集得分为 50.7%）；在 AIME 2025 中达到 100%，在 HMMT 2025 中达到 99.4%，在 ARC-AGI-2 中达到 15.9%，并在 Vending-Bench 中以 4694.15 美元的净值占据主导地位。该模型支持 256K 上下文窗口及多模态理解，并可通过 API 提供先进的推理、编程和视觉处理能力。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

归一化

RMS Normalization

激活函数

维度

隐藏维度大小

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

模型完整性

总分

39 / 100

上游

9.0 / 30

模型

19.0 / 40

下游

11.0 / 30

资源

官方文档

关于 Grok 4

xAI 的前沿智能模型，利用拥有 20 万个 GPU 的 Colossus 集群，以史无前例的规模通过强化学习训练而成。Grok 4 系列在推理、编程和多模态理解方面展现了顶尖性能，并具备原生工具调用能力。其特点包括集成 X 平台和互联网的实时搜索功能，通过大规模强化学习（RL）训练实现的先进推理能力，以及在学术基准测试中行业领先的表现。该系列专为即时响应和具备视觉能力的深度思考模式而设计。

Grok 4

评估基准

排名

关于 Grok 4

技术规格

模型完整性

资源

关于 Grok 4

其他 Grok 4 模型