趋近智
参数
-
上下文长度
131.072K
模态
Code
架构
Dense
许可证
Proprietary
发布日期
12 Feb 2026
训练数据截止日期
-
注意力结构
Multi-Head Attention
隐藏维度大小
-
层数
-
注意力头
-
键值头
-
激活函数
-
归一化
-
位置嵌入
Absolute Position Embedding
GPT-5.3-Codex-Spark 是一款专为实时、交互式软件开发设计的专用低延迟大语言模型。该模型由 OpenAI 与 Cerebras Systems 合作开发,是更广泛的 GPT-5.3-Codex 系列中的精简变体。该模型旨在为实时编程会话提供极速响应体验,能够针对逻辑微调、界面优化和增量重构等任务提供即时反馈。通过优先考虑推理速度,该模型促进了一种协作式工作流,使开发人员能够实时引导代码生成,从而有效缩小了编程意图与执行之间的时间差。
GPT-5.3-Codex-Spark 的技术基础在于其部署在 Cerebras Wafer-Scale Engine 3 (WSE-3) 之上。与通常受限于“内存墙”和互连延迟的传统分布式 GPU 架构不同,WSE-3 采用单一巨型硅片,集成了高带宽内存 (SRAM) 和数十万个优化核心。这种硬件协同效应使该模型能够实现超过每秒 1,000 个 token 的吞吐量。为了进一步最小化端到端延迟,系统采用了持久化 WebSocket 连接和经过修订的推理栈,与标准的 RESTful API 实现相比,它加快了会话初始化速度,并将网络开销降低了约 80%。
在架构上,该模型是一个专为高速纯文本生成优化的稠密 Transformer。它支持 128k token 的上下文窗口,旨在处理活跃文件的大部分内容及其直接的项目依赖项。该模型的行为专门针对轻量级交互风格进行了调优,倾向于提供精确、最小化的编辑,而非进行大规模、自主式的代码重写。这一设计选择确保了开发人员始终是逻辑的主导者,而模型则充当超快、可中断的补全引擎。该模型通过专用的延迟优先服务层交付,并与 OpenAI 现有的 GPU 基础设施并行运行。
GPT-5.3 Codex 是 OpenAI 的超快速代码模型系列,与 Cerebras 合作并基于 Wafer Scale Engine 3 开发,专为实现极低延迟的实时交互式代码编写而打造。
排名
#18
| 基准 | 分数 | 排名 |
|---|---|---|
0.67 | 🥈 2 |