GPT-5.1 High

闭源

封闭权重

参数

上下文长度

400K

模态

Text

架构

Dense

许可证

Proprietary

发布日期

13 Nov 2025

训练数据截止日期

Sep 2024

评估基准

排名

#10

基准	分数	排名
编程 Aider Coding	0.88	🥇 1
StackEval ProLLM Stack Eval	0.99	🥇 1
研究生级问答 GPQA	0.881	⭐ 5
StackUnseen ProLLM Stack Unseen	0.84	9
数学 LiveBench Mathematics	0.87	11
专业知识 MMLU Pro	0.86	12
智能编程 LiveBench Agentic	0.53	13
数据分析 LiveBench Data Analysis	0.70	15
推理 LiveBench Reasoning	0.79	17
Web 开发 WebDev Arena	1457	19
通用文本 Text Arena	1454	22
编程 LiveBench Coding	0.72	31

排名

#10

编程排名

#3 🥉

关于 GPT-5.1 High

GPT-5.1 High 是 OpenAI GPT-5 模型系列中的专用推理变体，旨在为复杂的分析任务提供高强度的认知处理。该模型基于模块化架构构建，集成了稠密语言骨干（backbone）、稀疏混合专家（MoE）层和专用推理核心。这种设计使系统能够实现自适应推理，通过延长处理多步问题（如高级数学证明和架构级代码重构）的内部思考时间，动态分配计算预算。与产生即时输出的标准模型不同，GPT-5.1 High 会生成隐藏的推理 token，在确定最终响应之前评估多种解决方案路径。

在技术层面，该模型采用了改进的 Transformer 架构，包含多头注意力（MHA）机制，并利用绝对位置嵌入来保持其扩展上下文中的结构连贯性。GPT-5.1 系列的一个重大创新是集成了用于上下文管理的“压缩（compaction）”机制，该机制在接近限制时会对历史 token 进行剪枝和总结，从而在不进行全上下文重置的情况下保持长期会话的连贯性。该架构还结合了显式的规划钩子（planning hooks）和在生成前后运行的安全护栏，确保复杂的推理链符合预期约束，同时最大限度地降低用户感知的延迟。

该模型主要面向技术和智能体（agentic）工作流，在这些场景中，深度分析的优先级高于原始速度。其用例包括自主调试、涉及多个文件的长期编码项目以及复杂的数据综合。通过向开发者开放“推理强度（reasoning effort）”控制功能，GPT-5.1 High 允许对模型处理困难查询时的持久性进行细粒度调整。这使其对于构建可靠智能体系统的专业人员特别有效，因为这些系统需要在工程、法律分析和科学研究等不同领域提供一致、高保真的输出。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

激活函数

维度

隐藏维度大小

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

模型完整性

总分

37 / 100

上游

12.0 / 30

模型

15.0 / 40

下游

10.0 / 30

资源

官方文档发布说明

关于 GPT-5

OpenAI 最新一代语言模型，具备先进的推理能力，支持高达 400K token 的超长上下文窗口，并针对编程、通用智能及效率推出了专门的变体。GPT-5 系列引入了改进的思考模式，在各项基准测试中表现卓越，并提供从高容量 Pro 模型到高效 Nano 模型等多种针对不同用例优化的版本。该系列具备原生多模态理解能力、增强的数学推理能力，并通 Codex 变体实现了业界领先的编程能力。