ApX 标志ApX 标志

趋近智

GLM-4.5

活跃参数

355B

上下文长度

128K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

MIT License

发布日期

28 Jul 2025

训练数据截止日期

Jan 2025

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

96

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

96

FFN 中间层大小(稠密层)

1,536

多 Token 预测头数

1

分词器

词汇量大小

151,552

混合专家

专家参数总数

32.0B

专家数量

160

活跃专家

8

共享专家数

1

FFN 中间层大小(每专家)

1,536

MoE 前的稠密层数

3

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 5.1k · Context: 128k · Vocab: 151.6kx 96 layersRMSNormPre-AttentionMulti-Head Attention96Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (8/160 experts)SwiGLUIntermediate: 1.5k+Final RMSNormOutput Logits

GLM-4.5

GLM-4.5 是由 Z.ai 开发的旗舰级多模态大语言模型,在统一架构中集成了复杂推理、软件工程和智能体(Agentic)能力。该模型采用了先进的混合专家(MoE)设计,总参数量达 3550 亿,通过在前向传播过程中仅激活 320 亿参数,专门针对参数效率进行了优化。该模型的一个核心特征是其双模式执行框架,允许它在用于多步规划的高延迟“思考模式”与用于标准交互任务的瞬时“非思考模式”之间进行切换。

GLM-4.5 的技术创新侧重于架构深度而非宽度,以增强逻辑演绎和数学处理能力。该模型利用了具有 96 个注意力头和 5120 个隐藏层维度的分组查询注意力(GQA)。其 MoE 实现采用了 Sigmoid 门控路由和 QK-Norm,以确保稳定的专家利用率和负载均衡。训练流水线涉及规模高达 23 万亿 Token 的海量语料库,其中包括 7 万亿专门用于代码和推理的数据集,随后使用定制的“slime”基础设施进行强化学习,以精炼自主决策能力。

GLM-4.5 专为生产级智能体应用设计,支持高成功率的原生函数调用和复杂网页浏览。它具有 128,000 Token 的广阔上下文窗口和高达 96,000 Token 的最大输出限制,使其适用于长文档分析和全栈软件开发。该模型在 MIT 许可证下开源权重,促进了其在研究和商业环境中的广泛采用。

关于 GLM Family

Z.ai 通用语言大模型


其他 GLM Family 模型

评估基准

排名

#66

基准分数排名

Web 开发

WebDev Arena

1410

30

研究生级问答

GPQA

0.791

30

专业知识

MMLU Pro

0.81

32

通用文本

Text Arena

1411

48

排名

排名

#66

编程排名

#50

模型完整性

总分

B

69 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU

GLM-4.5:规格和 GPU 显存要求