ApX 标志ApX 标志

趋近智

GLM-4.5-Air

活跃参数

106B

上下文长度

128K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

MIT License

发布日期

28 Jul 2025

训练数据截止日期

Mar 2025

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

96

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

4,096

层数

46

FFN 中间层大小(稠密层)

1,408

多 Token 预测头数

1

分词器

词汇量大小

151,552

混合专家

专家参数总数

12.0B

专家数量

129

活跃专家

9

共享专家数

1

FFN 中间层大小(每专家)

1,408

MoE 前的稠密层数

1

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 128K · Vocab: 151.6kx 46 layersRMSNormPre-AttentionMulti-Head Attention96Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (9/129 experts)SwishIntermediate: 1.4k+Final RMSNormOutput Logits

GLM-4.5-Air

GLM-4.5-Air 是由 Z.ai 开发的高效能大语言模型,属于 GLM-4.5 系列。其设计旨在弥合超大规模基座模型与端侧或中端云端部署的实际限制之间的差距。该模型主要针对面向智能体(Agent)的工作流进行了优化,优先提升了推理、复杂指令遵循和代码生成能力。它可作为自主智能体的多功能引擎,具备多步规划和工具调用能力,是开发者构建复杂数字助手和自动化软件工程流水线的理想选择。

在架构上,该模型采用了稀疏混合专家(MoE)框架,拥有 1,060 亿总参数量,而每次前向传播仅激活 120 亿参数。该设计包含 128 个路由专家和一个专门的共享专家层,每个 Token 激活 9 个专家,在保持表征能力的同时显著降低了计算开销。Transformer 模块通过多 Token 预测(MTP)层进一步增强,使模型能够同时预测多个未来的 Token。这种实现方式支持投机解码(Speculative Decoding),从而提高了推理吞吐量,并为实时交互应用提供更敏捷的响应体验。

GLM-4.5-Air 的技术创新包括采用具有 96 个注意力头和 8 个键值组的分组查询注意力(GQA)技术,降低了长上下文处理期间的内存带宽需求。该模型通过旋转位置嵌入(RoPE)支持 128,000 Token 的上下文窗口,并配备了混合推理系统。该系统包含“慢思考”模式(执行用于分析性问题解决的隐性思维链过程)和用于即时输出的“标准”模式。对函数调用、网页浏览和代码执行的原生集成,确保了模型能够以高可靠性与外部环境进行交互。

关于 GLM Family

Z.ai 通用语言大模型


其他 GLM Family 模型

评估基准

排名

#110

基准分数排名

Web 开发

WebDev Arena

1372

49

专业知识

MMLU Pro

0.81

58

通用文本

Text Arena

1373

64

排名

排名

#110

编程排名

#59

模型完整性

总分

B

70 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU