GLM-5.1

开源

开放权重

活跃参数

754B

上下文长度

200K

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

7 Apr 2026

训练数据截止日期

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

1586.27 GB VRAM

消费级

99x RTX 4090

24GB VRAM

数据中心

25x NVIDIA A100

80GB VRAM

Apple Silicon

21x Apple M3 Max

128GB VRAM

200000 个令牌

1853.27 GB VRAM

消费级

120x RTX 4090

24GB VRAM

数据中心

30x NVIDIA A100

80GB VRAM

Apple Silicon

26x Apple M3 Max

128GB VRAM

架构图

评估基准

排名

基准	分数	排名
Web 开发 WebDev Arena	1532	⭐ 7
通用文本 Text Arena	1475	⭐ 7

排名

编程排名

#18

关于 GLM-5.1

GLM-5.1 是 Z.ai 针对长程智能体编程任务（long-horizon agentic coding tasks）推出的旗舰模型。该模型基于创新的 GlmMoeDSA 架构，在 78 层网络中包含 7540 亿总参数（256 个路由专家 + 1 个共享专家，每个 token 激活 8+1 个专家）。它结合了门控 DeltaNet 线性注意力、标准注意力和稀疏 MoE 前馈网络，在保持高效推理的同时提供了顶尖的智能水平。GLM-5.1 在 SWE-Bench Pro (58.4%)、Terminal-Bench 2.0 (63.5%)、AIME 2026 (95.3%) 和 GPQA-Diamond (86.2%) 上均达到了业界领先水平。其独特的设计支持长达 8 小时的持续自主执行，能够将复杂的工程任务拆解为“实验-分析-优化”的迭代循环。模型支持 200K 上下文窗口及 128K 最大输出 token，可通过 Z.ai 和 BigModel.cn 提供的 API（模型调用名为 glm-5.1）获取。该模型于 2026 年 4 月 7 日以 MIT 许可证发布。

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

键值头

注意力头维度

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

6,144

层数

FFN 中间层大小（稠密层）

2,048

多 Token 预测头数

分词器

词汇量大小

154,880

混合专家

专家参数总数

40.0B

专家数量

257

活跃专家

共享专家数

FFN 中间层大小（每专家）

2,048

MoE 前的稠密层数

模型完整性

总分

68 / 100

上游

21.0 / 30

模型

24.0 / 40

下游

23.0 / 30

资源

官方文档下载权重源代码

关于 GLM-5.1

GLM-5.1 is Z.ai's next-generation flagship model for agentic engineering, built on a novel hybrid MoE architecture (GlmMoeDSA) combining Gated DeltaNet linear attention layers with standard attention and sparse MoE feed-forward networks. It achieves state-of-the-art performance on SWE-Bench Pro (58.4%) and is designed for long-horizon autonomous tasks, capable of sustained execution for up to 8 hours. With 754B total parameters and a 200K context window, GLM-5.1 delivers strong performance across coding, reasoning, tool use, and agentic benchmarks. Released open-source under the MIT License.

其他 GLM-5.1 模型

没有相关模型