ApX 标志ApX 标志

趋近智

GPT-OSS 120B

活跃参数

117B

上下文长度

128K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

5 Aug 2025

训练数据截止日期

Jun 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

64

键值头

8

注意力头维度

64

位置嵌入

Absolute Position Embedding

RoPE Theta

150,000

滑动窗口注意力

Yes

滑动窗口大小

128

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,880

层数

36

FFN 中间层大小(稠密层)

2,880

多 Token 预测头数

-

分词器

词汇量大小

201,088

混合专家

专家参数总数

5.1B

专家数量

128

活跃专家

4

共享专家数

-

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 2.9k · Context: 128K · Vocab: 201.1kx 36 layersRMSNormPre-AttentionMulti-Head Attention64Q / 8KV heads · SW: 128Head dim: 64+RMSNormPre-FFNSparse MoE FFN (4/128 experts)SwiGLU+Final RMSNormOutput Logits

GPT-OSS 120B

GPT-OSS 120B 是来自 OpenAI 的一款大型开放权重模型,旨在数据中心以及高端台式机和笔记本电脑上运行。该模型专为支持高级推理、智能体任务和多样化的开发者用例而开发,在输入和输出模态上均表现为纯文本模型。

关于 GPT-OSS

OpenAI 推出的开放权重语言模型。


其他 GPT-OSS 模型

评估基准

排名

#116

基准分数排名

0.976

🥉

3

通用知识

MMLU

0.9

🥉

3

研究生级问答

GPQA

0.801

26

0.42

28

0.69

37

专业知识

MMLU Pro

0.79

41

智能编程

LiveBench Agentic

0.17

50

0.60

53

0.39

56

Web 开发

WebDev Arena

1354

58

0.39

59

通用文本

Text Arena

1353

68

排名

排名

#116

编程排名

#125

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU