GPT-OSS 120B

开源

开放权重

活跃参数

117B

上下文长度

128K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

5 Aug 2025

训练数据截止日期

Jun 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

150,000

滑动窗口注意力

Yes

滑动窗口大小

128

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,880

层数

FFN 中间层大小（稠密层）

2,880

多 Token 预测头数

分词器

词汇量大小

201,088

混合专家

专家参数总数

5.1B

专家数量

128

活跃专家

共享专家数

FFN 中间层大小（每专家）

MoE 前的稠密层数

架构图

GPT-OSS 120B

GPT-OSS 120B 是来自 OpenAI 的一款大型开放权重模型，旨在数据中心以及高端台式机和笔记本电脑上运行。该模型专为支持高级推理、智能体任务和多样化的开发者用例而开发，在输入和输出模态上均表现为纯文本模型。

关于 GPT-OSS

OpenAI 推出的开放权重语言模型。

其他 GPT-OSS 模型

GPT-OSS 20B

评估基准

排名

#116

基准	分数	排名
文本摘要 ProLLM Summarization	0.976	🥉 3
通用知识 MMLU	0.9	🥉 3
研究生级问答 GPQA	0.801	26
编程 Aider Coding	0.42	28
数学 LiveBench Mathematics	0.69	37
专业知识 MMLU Pro	0.79	41
智能编程 LiveBench Agentic	0.17	50
编程 LiveBench Coding	0.60	53
推理 LiveBench Reasoning	0.39	56
Web 开发 WebDev Arena	1354	58
数据分析 LiveBench Data Analysis	0.39	59
通用文本 Text Arena	1353	68

排名

#116

编程排名

#125

模型完整性

总分

67 / 100

上游

19.0 / 30

模型

24.0 / 40

下游

23.5 / 30

GPU 要求

完整计算器

量化

选择模型权重的量化方法

上下文大小：1024 个令牌

63k

125k

所需显存:

资源

官方文档发布说明下载权重源代码

GPT-OSS 120B

技术规格

架构图

GPT-OSS 120B

关于 GPT-OSS

其他 GPT-OSS 模型

评估基准

排名

模型完整性

GPU 要求

所需显存:

推荐 GPU

资源