趋近智
参数
-
上下文长度
400K
模态
Text
架构
Dense
许可证
Proprietary
发布日期
13 Nov 2025
训练数据截止日期
Sep 2024
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
-
激活函数
-
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
GPT-5.1 Codex Mini 是一款专门设计的轻量级大语言模型,旨在助力快速软件开发并优化编码工作流。作为 GPT-5.1 系列中的高效变体,它针对需要即时反馈的环境进行了低延迟性能优化,例如集成开发环境 (IDE) 中的实时代码补全、行内重构以及交互式调试。该模型旨在处理常规编程任务,重点关注高吞吐量并降低了计算开销,对于需要持续辅助但又不希望承担大型推理模型资源消耗的开发者来说,是一个极具性价比的替代方案。
在技术架构上,该模型采用了基于多头注意力机制 (MHA) 和绝对位置嵌入的稠密 Transformer 架构。这种设计选择确保了输出的可预测性和确定性,这对于结构准确性至关重要的语法密集型任务而言至关重要。它支持高达 400,000 个 token 的庞大上下文窗口,使其能够处理大部分代码库或详尽的文档,从而实现更具情境化的生成。模型的训练专注于代码专用数据集,包括涵盖多种语言的代码仓库和软件文档的海量语料库,这使其在 Python、JavaScript 和 C++ 等常用编程语言中能够保持逻辑和语法的精确性。
在功能方面,GPT-5.1 Codex Mini 是以开发者为中心的应用程序的主力工具,支持函数调用、结构化输出以及集成视觉的 UI 开发等高级功能。它具备处理多模态输入的能力,能够解析屏幕截图或设计原型,以生成相应的前端代码或协助进行视觉调试。通过在原始生成速度与可靠的指令遵循能力之间取得平衡,该模型成为了智能体编码工具和 CI/CD 流水线的核心组件,可用于大规模执行自动化代码审查和单元测试生成。
OpenAI 最新一代语言模型,具备先进的推理能力,支持高达 400K token 的超长上下文窗口,并针对编程、通用智能及效率推出了专门的变体。GPT-5 系列引入了改进的思考模式,在各项基准测试中表现卓越,并提供从高容量 Pro 模型到高效 Nano 模型等多种针对不同用例优化的版本。该系列具备原生多模态理解能力、增强的数学推理能力,并通 Codex 变体实现了业界领先的编程能力。
排名
#94
| 基准 | 分数 | 排名 |
|---|---|---|
StackEval ProLLM Stack Eval | 0.98 | 🥈 2 |
0.76 | 28 | |
0.32 | 30 | |
0.65 | 31 | |
0.40 | 31 | |
0.70 | 36 | |
0.50 | 37 | |
Web 开发 WebDev Arena | 1239 | 72 |
APX AI
在线