趋近智
参数
1.7T
上下文长度
256K
模态
Multimodal
架构
Dense
许可证
Proprietary
发布日期
9 Jul 2025
训练数据截止日期
Dec 2024
排名
#24
| 基准 | 分数 | 排名 |
|---|---|---|
QA 助手 ProLLM QA Assistant | 0.985 | 🥇 1 |
0.976 | 🥉 3 | |
StackUnseen ProLLM Stack Unseen | 0.886 | 5 |
0.80 | 6 | |
研究生级问答 GPQA | 0.875 | 6 |
0.79 | 16 | |
0.63 | 17 | |
0.83 | 18 | |
专业知识 MMLU Pro | 0.85 | 19 |
0.73 | 28 | |
0.30 | 45 |
排名
#24
编程排名
#12
Grok 4 是 xAI 最智能的模型,利用拥有 20 万块 GPU 的 Colossus 集群,通过前所未有的超大规模强化学习训练而成。该模型具备原生工具调用能力,内置代码解释器和网页浏览功能,并整合了 X 平台与互联网的实时搜索。它在 Humanity's Last Exam 评估中展现出顶尖性能(工具辅助下的纯文本子集得分为 50.7%);在 AIME 2025 中达到 100%,在 HMMT 2025 中达到 99.4%,在 ARC-AGI-2 中达到 15.9%,并在 Vending-Bench 中以 4694.15 美元的净值占据主导地位。该模型支持 256K 上下文窗口及多模态理解,并可通过 API 提供先进的推理、编程和视觉处理能力。
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
-
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
APX AI
在线