Grok 4.1 Fast Non-Reasoning

闭源

封闭权重

参数

上下文长度

128K

模态

Text

架构

Dense

许可证

Proprietary

发布日期

1 Jun 2025

训练数据截止日期

Aug 2025

评估基准

排名

#155

基准	分数	排名
专业知识 MMLU Pro	0.75	45
智能编程 LiveBench Agentic	0.10	53
编程 LiveBench Coding	0.54	54
数学 LiveBench Mathematics	0.39	57
数据分析 LiveBench Data Analysis	0.41	58
推理 LiveBench Reasoning	0.23	61

排名

#155

编程排名

#136

关于 Grok 4.1 Fast Non-Reasoning

Grok 4.1 Fast Non-Reasoning 是由 xAI 开发的一款高吞吐量、多模态大语言模型，专门为低延迟代理工作流（agentic workflows）和实时工具编排而设计。作为 Grok 4.1 系列的速率优化版本，该模型旨在跳过推理模型特有的扩展思维链（CoT）处理，提供适用于时间敏感型应用的即时响应生成。它在模拟环境中使用长时界强化学习（RL）进行训练，增强了在多轮工具调用场景和自主任务执行中的可靠性。

在技术架构上，该模型采用密集 Transformer 架构，支持高达 200 万标记（token）的超大上下文窗口，是目前前沿 API 领域中容量最大的模型之一。该架构集成了旋转位置嵌入（RoPE）和 SwiGLU 激活函数，经过优化，可在极长序列中保持高检索准确率和事实一致性。模型的双模式能力允许开发者通过 API 参数在推理和非推理模式之间切换，其中非推理变体通过消除思考标记（thinking token）的开销，提供了显著更高的每秒标记输出量和更低的价格点。

Grok 4.1 Fast Non-Reasoning 的主要应用场景包括大规模文档分析、实时客户支持代理，以及需要处理海量数据集且无需深度思考带来计算延迟的复杂后端研究任务。通过专注于模式匹配效率和最尖端的工具调用准确率，该模型为生产级 AI 代理提供了强劲引擎，使其能够以极低的推理延迟与外部 API 交互、通过 X 生态系统搜索实时网络数据，并执行远程代码会话。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

模型完整性

总分

30 / 100

上游

11.0 / 30

模型

12.0 / 40

下游

7.0 / 30

资源

官方文档

关于 Grok

xAI 的对话式 AI 模型系列，具备实时知识访问能力，在推理、编程和语言任务方面表现优异。其特点包括扩展的上下文窗口、快速推理变体以及专门的编程版本。该系列模型以直率的沟通风格以及与 X 平台的深度集成而著称，并包含推理变体和针对不同延迟需求优化的版本。