Grok 4.1

闭源

封闭权重

参数

上下文长度

模态

Multimodal

架构

Dense

许可证

Proprietary

发布日期

17 Nov 2025

训练数据截止日期

评估基准

排名

#84

基准	分数	排名
通用文本 Text Arena	1460	18
专业知识 MMLU Pro	0.84	23
智能编程 LiveBench Agentic	0.32	42
Web 开发 WebDev Arena	1209	97

排名

#84

编程排名

#112

关于 Grok 4.1

Grok 4.1 在实际可用性方面带来了显著提升，具备卓越的创意、情感和协作能力。该版本利用前沿的智能体推理模型作为奖励模型，针对风格、个性、有用性和对齐进行了优化。它在 LMArena 文本排行榜上表现出色，思考模式以 1483 Elo 分位居榜首，非思考模式以 1465 Elo 分位列第二，超越了所有其他模型。其特性包括 200 万 (2M) 上下文窗口、幻觉率大幅降低（在生产环境查询中从 12.09% 降至 4.22%），以及业内顶尖的情感智能（在 EQ-Bench 上达到 1586 Elo）。用户可通过 API 调用其推理模式和快速非推理模式。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

激活函数

维度

隐藏维度大小

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

模型完整性

总分

32 / 100

上游

7.0 / 30

模型

15.0 / 40

下游

10.0 / 30

资源

官方文档

关于 Grok 4

xAI 的前沿智能模型，利用拥有 20 万个 GPU 的 Colossus 集群，以史无前例的规模通过强化学习训练而成。Grok 4 系列在推理、编程和多模态理解方面展现了顶尖性能，并具备原生工具调用能力。其特点包括集成 X 平台和互联网的实时搜索功能，通过大规模强化学习（RL）训练实现的先进推理能力，以及在学术基准测试中行业领先的表现。该系列专为即时响应和具备视觉能力的深度思考模式而设计。