趋近智
参数
-
上下文长度
128K
模态
Text
架构
Dense
许可证
Proprietary
发布日期
1 Jun 2025
训练数据截止日期
Aug 2025
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Grok 4.1 Fast Non-Reasoning 是由 xAI 开发的一款高吞吐量、多模态大语言模型,专门为低延迟代理工作流(agentic workflows)和实时工具编排而设计。作为 Grok 4.1 系列的速率优化版本,该模型旨在跳过推理模型特有的扩展思维链(CoT)处理,提供适用于时间敏感型应用的即时响应生成。它在模拟环境中使用长时界强化学习(RL)进行训练,增强了在多轮工具调用场景和自主任务执行中的可靠性。
在技术架构上,该模型采用密集 Transformer 架构,支持高达 200 万标记(token)的超大上下文窗口,是目前前沿 API 领域中容量最大的模型之一。该架构集成了旋转位置嵌入(RoPE)和 SwiGLU 激活函数,经过优化,可在极长序列中保持高检索准确率和事实一致性。模型的双模式能力允许开发者通过 API 参数在推理和非推理模式之间切换,其中非推理变体通过消除思考标记(thinking token)的开销,提供了显著更高的每秒标记输出量和更低的价格点。
Grok 4.1 Fast Non-Reasoning 的主要应用场景包括大规模文档分析、实时客户支持代理,以及需要处理海量数据集且无需深度思考带来计算延迟的复杂后端研究任务。通过专注于模式匹配效率和最尖端的工具调用准确率,该模型为生产级 AI 代理提供了强劲引擎,使其能够以极低的推理延迟与外部 API 交互、通过 X 生态系统搜索实时网络数据,并执行远程代码会话。
xAI 的对话式 AI 模型系列,具备实时知识访问能力,在推理、编程和语言任务方面表现优异。其特点包括扩展的上下文窗口、快速推理变体以及专门的编程版本。该系列模型以直率的沟通风格以及与 X 平台的深度集成而著称,并包含推理变体和针对不同延迟需求优化的版本。
排名
#150
| 基准 | 分数 | 排名 |
|---|---|---|
专业知识 MMLU Pro | 0.75 | 45 |
0.54 | 53 | |
0.10 | 53 | |
0.39 | 57 | |
0.41 | 58 | |
0.23 | 60 |
APX AI
在线