趋近智
活跃参数
117B
上下文长度
128K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
5 Aug 2025
训练数据截止日期
Jun 2024
注意力
注意力结构
Multi-Head Attention
注意力头
64
键值头
8
注意力头维度
64
位置嵌入
Absolute Position Embedding
RoPE Theta
150,000
滑动窗口注意力
Yes
滑动窗口大小
128
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
2,880
层数
36
FFN 中间层大小(稠密层)
2,880
多 Token 预测头数
-
分词器
词汇量大小
201,088
混合专家
专家参数总数
5.1B
专家数量
128
活跃专家
4
共享专家数
-
FFN 中间层大小(每专家)
-
MoE 前的稠密层数
-
GPT-OSS 120B 是来自 OpenAI 的一款大型开放权重模型,旨在数据中心以及高端台式机和笔记本电脑上运行。该模型专为支持高级推理、智能体任务和多样化的开发者用例而开发,在输入和输出模态上均表现为纯文本模型。
排名
#116
| 基准 | 分数 | 排名 |
|---|---|---|
0.976 | 🥉 3 | |
通用知识 MMLU | 0.9 | 🥉 3 |
研究生级问答 GPQA | 0.801 | 26 |
0.42 | 28 | |
0.69 | 37 | |
专业知识 MMLU Pro | 0.79 | 41 |
0.17 | 50 | |
0.60 | 53 | |
0.39 | 56 | |
Web 开发 WebDev Arena | 1354 | 58 |
0.39 | 59 | |
通用文本 Text Arena | 1353 | 68 |
APX AI
在线