ApX 标志ApX 标志

趋近智

GPT-5 Mini

参数

100B

上下文长度

400K

模态

Text

架构

Dense

许可证

Proprietary

发布日期

13 Nov 2025

训练数据截止日期

May 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

-

键值头

-

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

-

激活函数

-

维度

隐藏维度大小

-

层数

-

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

GPT-5 Mini

GPT-5 Mini 是 OpenAI 旗舰级 GPT-5 系列中一款经过高度优化的 Transformer 模型,旨在实现计算效率与高级推理之间的卓越平衡。作为此前小型推理模型的继任者,它作为一个统一系统运行,并与多阶段路由协议原生集成。这种架构使模型能够根据输入查询的具体复杂度动态调整其内部推理开销,从而兼顾标准对话任务和复杂的解题需求。

从技术角度看,该模型采用了经过精炼的稠密 Transformer 架构,旨在最小化延迟并保持强大的上下文管理能力。它利用稀疏注意力机制将计算资源集中在相关词元(Token)上,从而显著降低了大规模语言处理通常伴随的开销。原生多模态支持的加入使其能够同时处理文本和图像输入,在无需辅助视觉组件的情况下,即可支持文档分析、视觉问答和高保真代码生成等复杂工作流。

从性能和部署的角度来看,GPT-5 Mini 专为高吞吐量、成本敏感且对快速推理有极高要求的应用而量身定制。它引入了以开发者为中心的控制功能,例如“reasoning_effort”参数,使工程师能够针对单个 API 调用权衡推理速度与逻辑深度。凭借其扩展的上下文窗口和更低的运营成本,该模型在实现智能体工作流、长文本摘要以及需要在长会话中保持持久状态的交互式聊天界面方面表现尤为出色。

关于 GPT-5

OpenAI 最新一代语言模型,具备先进的推理能力,支持高达 400K token 的超长上下文窗口,并针对编程、通用智能及效率推出了专门的变体。GPT-5 系列引入了改进的思考模式,在各项基准测试中表现卓越,并提供从高容量 Pro 模型到高效 Nano 模型等多种针对不同用例优化的版本。该系列具备原生多模态理解能力、增强的数学推理能力,并通 Codex 变体实现了业界领先的编程能力。


其他 GPT-5 模型

评估基准

排名

#27

基准分数排名

0.982

🥇

1

0.824

12

0.76

15

研究生级问答

GPQA

0.823

19

专业知识

MMLU Pro

0.82

30

排名

排名

#27

编程排名

#21

模型完整性

总分

F

31 / 100