ApX 标志ApX 标志

趋近智

GLM-5

活跃参数

744B

上下文长度

204.8K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

12 Feb 2026

训练数据截止日期

Dec 2025

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

64

键值头

64

注意力头维度

64

位置嵌入

Absolute Position Embedding

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

6,144

层数

80

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

1

分词器

词汇量大小

154,880

混合专家

专家参数总数

40.0B

专家数量

256

活跃专家

8

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

3

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 6.1k · Context: 204.8k · Vocab: 154.9kx 80 layersRMSNormPre-AttentionMulti-Head Attention64Q / 64KV headsHead dim: 64+RMSNormPre-FFNSparse MoE FFN (8/256 experts)SwishIntermediate: 2k+Final RMSNormOutput Logits

GLM-5

GLM-5 是由 Z.ai 开发的旗舰级多模态基础模型,专为复杂系统工程和长跨度智能体(agentic)工作流设计。该模型采用混合专家(MoE)架构,总参数量达 7440 亿,每个 token 的激活参数量约为 400 亿。这种设计在保持大规模部署所需的计算效率的同时,实现了高容量推理和专业知识检索。模型在包含 28.5 万亿 token 的海量语料库上进行训练,重点涵盖高质量代码、技术文档和推理密集型数据,旨在支持专业级软件开发和自主问题解决。

在技术层面,GLM-5 引入了多项架构创新,其中最显著的是集成了 DeepSeek 稀疏注意力(DSA)机制。该机制通过动态分配计算资源来优化标准注意力模块,显著降低了处理长序列时的显存和计算开销。此外,该模型在后期训练(post-training)中利用了名为“slime”的异步强化学习基础设施。该框架将生成过程与训练过程解耦以提高迭代吞吐量,使模型能够有效地从复杂的多步交互和动态环境中学习。

GLM-5 针对长上下文稳定性进行了优化,支持高达 204,800 个 token 的上下文窗口,并能在单次输出中生成多达 128,000 个 token。其功能涵盖高级工具调用、实时流式传输,以及跨前端、后端和数据处理任务的结构化输出。该模型在 MIT 许可证下开源权重,允许研究人员和开发人员进行本地部署、微调,并将其集成到各种智能体框架中,从而避免供应商锁定。

关于 GLM 5

GLM 5 是由 Z.ai 开发的第五代通用语言模型。它标志着多模态基础能力的重大飞跃,在多种系统工程任务中具备先进的推理和长程智能体能力。


其他 GLM 5 模型
  • 没有相关模型

评估基准

排名

#25

基准分数排名

智能编程

LiveBench Agentic

0.55

11

Web 开发

WebDev Arena

1440

11

0.68

16

专业知识

MMLU Pro

0.86

16

0.83

17

0.551

21

0.74

26

0.69

28

排名

排名

#25

编程排名

#38

模型完整性

总分

B+

79 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
100k
200k

所需显存:

推荐 GPU