趋近智
参数
-
上下文长度
400K
模态
Text
架构
Dense
许可证
Proprietary
发布日期
13 Nov 2025
训练数据截止日期
Sep 2024
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
-
激活函数
-
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
GPT-5.1 High 是 OpenAI GPT-5 模型系列中的专用推理变体,旨在为复杂的分析任务提供高强度的认知处理。该模型基于模块化架构构建,集成了稠密语言骨干(backbone)、稀疏混合专家(MoE)层和专用推理核心。这种设计使系统能够实现自适应推理,通过延长处理多步问题(如高级数学证明和架构级代码重构)的内部思考时间,动态分配计算预算。与产生即时输出的标准模型不同,GPT-5.1 High 会生成隐藏的推理 token,在确定最终响应之前评估多种解决方案路径。
在技术层面,该模型采用了改进的 Transformer 架构,包含多头注意力(MHA)机制,并利用绝对位置嵌入来保持其扩展上下文中的结构连贯性。GPT-5.1 系列的一个重大创新是集成了用于上下文管理的“压缩(compaction)”机制,该机制在接近限制时会对历史 token 进行剪枝和总结,从而在不进行全上下文重置的情况下保持长期会话的连贯性。该架构还结合了显式的规划钩子(planning hooks)和在生成前后运行的安全护栏,确保复杂的推理链符合预期约束,同时最大限度地降低用户感知的延迟。
该模型主要面向技术和智能体(agentic)工作流,在这些场景中,深度分析的优先级高于原始速度。其用例包括自主调试、涉及多个文件的长期编码项目以及复杂的数据综合。通过向开发者开放“推理强度(reasoning effort)”控制功能,GPT-5.1 High 允许对模型处理困难查询时的持久性进行细粒度调整。这使其对于构建可靠智能体系统的专业人员特别有效,因为这些系统需要在工程、法律分析和科学研究等不同领域提供一致、高保真的输出。
OpenAI 最新一代语言模型,具备先进的推理能力,支持高达 400K token 的超长上下文窗口,并针对编程、通用智能及效率推出了专门的变体。GPT-5 系列引入了改进的思考模式,在各项基准测试中表现卓越,并提供从高容量 Pro 模型到高效 Nano 模型等多种针对不同用例优化的版本。该系列具备原生多模态理解能力、增强的数学推理能力,并通 Codex 变体实现了业界领先的编程能力。
排名
#4
| 基准 | 分数 | 排名 |
|---|---|---|
0.88 | 🥇 1 | |
StackEval ProLLM Stack Eval | 0.99 | 🥇 1 |
研究生级问答 GPQA | 0.881 | ⭐ 5 |
StackUnseen ProLLM Stack Unseen | 0.84 | 9 |
Web 开发 WebDev Arena | 1457 | ⭐ 9 |
0.87 | 11 | |
专业知识 MMLU Pro | 0.86 | 12 |
0.53 | 13 | |
0.70 | 15 | |
0.79 | 17 | |
0.72 | 30 |
APX AI
在线